Categorías
- Todas las publicaciones 549
- Proyectos Prácticos de Código Abierto 478
- Artículos Tutoriales 22
- Utilidades en Línea 13
- Noticias de IA 7
- Tiny Startups Showcase 7
- Claude Code Skills 6
- Plantillas de Prompts 5
- Espacios de Hugging Face 3
- OpenClaw Use Cases 3
- LLM Learning Resources 1
- Online AI Image Tools 1
- OpenClaw Master Skills Collection 1
- Rust Training Resources 1
- AI Short Drama Tools 1
- Mis Favoritos 0
Publicaciones etiquetadas con: Web Crawling
Content related to Web Crawling
WaterCrawl: Transforma el contenido web en datos listos para LLM
Descubre WaterCrawl, una potente aplicación web de código abierto diseñada para rastrear páginas web y extraer datos relevantes, dejándolos listos para su integración con Grandes Modelos de Lenguaje (LLM). Desarrollada con Python, Django, Scrapy y Celery, WaterCrawl ofrece rastreo web avanzado, soporte multilingüe y procesamiento asíncrono. Proporciona acceso completo a su API, SDKs para clientes (Python, Node.js, Go, PHP) e integraciones con plataformas como Dify y N8N. Tanto si eres un desarrollador que busca construir pipelines de datos para IA como una organización que necesita herramientas robustas de web scraping, WaterCrawl ofrece una solución autohospedada y personalizable. Aprende a empezar rápidamente con Docker o contribuye a su desarrollo continuo.
Common Crawl: Datos web libres y abiertos para todos
Descubre Common Crawl, una organización sin ánimo de lucro que ofrece un repositorio masivo, gratuito y abierto de datos de rastreo web. Desde 2007, Common Crawl ha acumulado más de 250 mil millones de páginas, con 3 a 5 mil millones de páginas nuevas añadidas mensualmente, lo que lo convierte en un recurso inestimable para investigadores, desarrolladores y científicos de datos. Aprende cómo este extenso conjunto de datos ha sido citado en más de 10.000 artículos de investigación y continúa apoyando avances en inteligencia artificial, modelos de lenguaje y análisis web. Explora sus últimos grafos web y comprende el impacto de este proyecto fundamental de código abierto.