Web Scraping - Proyectos de código abierto

Scrapling: El Framework Definitivo de Web Scraping en Python

March 01, 2026

Etiquetas:

Python Web Scraping Web Crawler scrapy cloudflare bypass

¡Descubre Scrapling, el framework adaptativo de web scraping que maneja todo, desde solicitudes individuales hasta rastreos a gran escala! Evade Cloudflare Turnstile, usa seguimiento inteligente de elementos que sobrevive a cambios en los sitios web y escala con spiders concurrentes con pausa/reenudación. Con modos stealth, rotación de proxies, integración con IA vía servidor MCP y rendimiento ultrarrápido que supera a Scrapy/Parsel, está diseñado para scrapers web serios. ¡Instálalo con pip y empieza a hacer scraping en minutos!

Leer más Original

Proyectos Prácticos de Código Abierto

Agent Reach: Un solo CLI para potenciar agentes de IA en toda la web.

February 27, 2026

Etiquetas:

Open Source AI Agent CLI tool Web Scraping free APIs

Agent Reach es una herramienta de línea de comando sin complicaciones que le brinda instantáneamente a tu agente de IA la capacidad de leer Twitter, Reddit, YouTube, GitHub y más—sin claves de API costosas. El proyecto agrupa scrapers de código abierto gratuitos, gestiona las credenciales de cookies de forma segura y ofrece una CLI plug‑and‑play que funciona con cualquier agente de codificación capaz de ejecutar comandos shell. En este artículo descubrirás por qué la barrera del web‑scraping es importante para la IA, cómo Agent Reach instala automáticamente las dependencias, cómo configurar cada canal y cómo mantener tus credenciales seguras. Ya seas ingeniero de prompts, desarrollador o simplemente tengas curiosidad por crear agentes más inteligentes, Agent Reach es el primer paso hacia un acceso completo a Internet para la IA.

Leer más Original

Proyectos Prácticos de Código Abierto

Web Scout MCP: Búsqueda Web y Extracción de DuckDuckGo

January 23, 2026

Etiquetas:

Open Source AI Assistant Web Scraping MCP duckduckgo

¿Buscas un complemento que permita a tu asistente de IA navegar por la web de forma segura? Web Scout MCP trae búsqueda de DuckDuckGo centrada en la privacidad y extracción de contenido simplificada directamente a tu entorno MCP. Con una CLI intuitiva, soporte Docker sencillo y manejo paralelo de URLs, los desarrolladores pueden obtener una búsqueda web lista para usar bajo demanda. Sigue leyendo para ver cómo instalarlo, integrarlo con Claude Desktop o Cursor, y aprovechar las herramientas de DuckDuckGo y extracción para obtener texto limpio de cualquier sitio.

Leer más Original

Proyectos Prácticos de Código Abierto

Extracción de LLM: Convierta páginas web en datos estructurados

July 20, 2025

Etiquetas:

Open Source LLM Web Scraping Playwright TypeScript

Descubre LLM Scraper, una potente biblioteca de TypeScript que utiliza Modelos de Lenguaje Grandes para transformar cualquier página web en datos estructurados. Este proyecto de código abierto, construido sobre Playwright, es compatible con varios proveedores de LLM como GPT, Gemini y Llama, y permite definir esquemas con Zod o JSON Schema para una extracción segura de tipos. Aprende cómo empezar, integrarte con LLM populares e incluso generar código de scraping reutilizable. Explora sus características como el soporte de entrada multimodal para capturas de pantalla y capacidades de streaming. LLM Scraper es ideal para desarrolladores que buscan soluciones eficientes de web scraping impulsadas por IA.

Leer más Original

Proyectos Prácticos de Código Abierto

Google Play Scraper: Extrae datos de aplicaciones con Node.js

July 10, 2025

Etiquetas:

Open Source Node.js Data Extraction Web Scraping Google Play API

Descubra 'google-play-scraper', un potente módulo de Node.js diseñado para extraer sin esfuerzo grandes volúmenes de datos de Google Play Store. Esta herramienta de código abierto permite a desarrolladores e investigadores obtener programáticamente detalles de aplicaciones, reseñas, información de desarrolladores y mucho más. Con una fácil instalación vía npm y claros ejemplos de uso, es un recurso inestimable para cualquiera que necesite analizar datos de Google Play. Aprenda a utilizar sus diversos métodos para listar aplicaciones, buscar por términos, recuperar permisos e incluso manejar información de seguridad de datos, lo que la convierte en una adición versátil a su kit de herramientas de desarrollo. Se incluyen demostraciones prácticas y consejos para la gestión de solicitudes.

Leer más Original

Proyectos Prácticos de Código Abierto

Crawlee: Potenciando el scraping web fiable con Node.js

July 09, 2025

Etiquetas:

Open Source Automation Node.js Data Extraction Web Scraping

Descubre Crawlee, la potente librería de Node.js para web scraping y automatización de navegadores. Aprende cómo esta herramienta de código abierto ayuda a los desarrolladores a construir rastreadores robustos y fiables, con características como la rotación de proxies, la evasión de protecciones anti-bot y soporte para Puppeteer y Playwright. Ya sea que estés extrayendo datos para IA, LLMs o recolección general de información, Crawlee simplifica el proceso. Explora sus capacidades y descubre cómo empezar con la instalación y el uso básico. Ideal para desarrolladores de JavaScript y TypeScript que buscan mejorar sus flujos de trabajo de extracción de datos y asegurar que sus rastreadores operen de manera eficiente y sin ser detectados.

Leer más Original

Proyectos Prácticos de Código Abierto

MediaCrawler: Extractor de datos de redes sociales de código abierto

July 05, 2025

Etiquetas:

Open Source Python Web Scraping Playwright Social Media Data

Descubra MediaCrawler, una potente herramienta de código abierto en Python para extraer datos públicos de las principales plataformas de redes sociales chinas, como Xiaohongshu, Douyin, Kuaishou, Bilibili, Weibo, Baidu Tieba y Zhihu. Aprovechando Playwright para la automatización del navegador, simplifica la recopilación de datos para investigación o análisis sin complejas ingenierías inversas. Este proyecto es ideal para desarrolladores e investigadores que buscan una solución robusta y fácil de usar para la adquisición de datos de plataformas de medios. Conozca sus características, instalación y cómo puede ayudar a sus proyectos basados en datos.

Leer más Original

Proyectos Prácticos de Código Abierto

Crawlee-Python: La biblioteca definitiva para web scraping

June 29, 2025

Etiquetas:

Open Source Python Automation Web Scraping Crawlee

Descubra Crawlee-Python, una biblioteca de web scraping y automatización de navegadores robusta y fiable. Ideal para la extracción de datos destinados a la inteligencia artificial, los LLM, RAG y GPT, Crawlee gestiona desde la descarga de diversos tipos de archivos hasta el trabajo con BeautifulSoup, Playwright y HTTP puro. Soporta modos tanto con interfaz de usuario (headful) como sin ella (headless), ofreciendo rotación de proxies y funciones avanzadas para construir crawlers resistentes. Esta biblioteca simplifica las tareas complejas de scraping, asegurando que sus proyectos sean eficientes y efectivos. Aprenda cómo Crawlee revoluciona la recopilación de datos web y la automatización para desarrolladores.

Leer más Original

Proyectos Prácticos de Código Abierto

Firecrawl: Convierte sitios web en datos listos para LLM

June 28, 2025

Etiquetas:

Open Source AI Development Data Extraction LLM Data Web Scraping

Descubre Firecrawl, la potente solución de rastreo y extracción de datos web de código abierto, diseñada específicamente para aplicaciones de IA. Transforma datos web brutos en formatos limpios y listos para LLM, integrándose sin problemas con herramientas de IA populares como LlamaIndex y Langchain. Aprende cómo Firecrawl maneja el contenido dinámico, proporciona una extracción de datos fiable y soporta diversos casos de uso, desde chats de IA hasta investigación profunda, convirtiéndolo en una herramienta esencial para desarrolladores que construyen soluciones impulsadas por IA. Empieza gratis y escala a medida que tus necesidades crezcan.

Leer más Original

Categorías

Publicaciones etiquetadas con: Web Scraping

Scrapling: El Framework Definitivo de Web Scraping en Python

Agent Reach: Un solo CLI para potenciar agentes de IA en toda la web.

Web Scout MCP: Búsqueda Web y Extracción de DuckDuckGo

Extracción de LLM: Convierta páginas web en datos estructurados

Google Play Scraper: Extrae datos de aplicaciones con Node.js

Crawlee: Potenciando el scraping web fiable con Node.js

MediaCrawler: Extractor de datos de redes sociales de código abierto

Crawlee-Python: La biblioteca definitiva para web scraping

Firecrawl: Convierte sitios web en datos listos para LLM