Entradas etiquetadas con: Web Crawling
Content related to Web Crawling
WaterCrawl: Transforma el contenido web en datos listos para LLM
Descubre WaterCrawl, una potente aplicación web de código abierto diseñada para rastrear páginas web y extraer datos relevantes, dejándolos listos para su integración con Grandes Modelos de Lenguaje (LLM). Desarrollada con Python, Django, Scrapy y Celery, WaterCrawl ofrece rastreo web avanzado, soporte multilingüe y procesamiento asíncrono. Proporciona acceso completo a su API, SDKs para clientes (Python, Node.js, Go, PHP) e integraciones con plataformas como Dify y N8N. Tanto si eres un desarrollador que busca construir pipelines de datos para IA como una organización que necesita herramientas robustas de web scraping, WaterCrawl ofrece una solución autohospedada y personalizable. Aprende a empezar rápidamente con Docker o contribuye a su desarrollo continuo.
Common Crawl: Datos web libres y abiertos para todos
Descubre Common Crawl, una organización sin ánimo de lucro que ofrece un repositorio masivo, gratuito y abierto de datos de rastreo web. Desde 2007, Common Crawl ha acumulado más de 250 mil millones de páginas, con 3 a 5 mil millones de páginas nuevas añadidas mensualmente, lo que lo convierte en un recurso inestimable para investigadores, desarrolladores y científicos de datos. Aprende cómo este extenso conjunto de datos ha sido citado en más de 10.000 artículos de investigación y continúa apoyando avances en inteligencia artificial, modelos de lenguaje y análisis web. Explora sus últimos grafos web y comprende el impacto de este proyecto fundamental de código abierto.