Web Scraping - Projets open source

Scrapling : Le framework ultime de web scraping Python

March 01, 2026

Étiquettes:

Python Web Scraping Web Crawler scrapy cloudflare bypass

Découvrez Scrapling, le framework adaptatif de web scraping qui gère tout, des requêtes uniques aux crawls à grande échelle. Contournez Cloudflare Turnstile, utilisez un suivi intelligent d'éléments qui survit aux changements de sites web, et scalez avec des spiders concurrents disposant de pause/reprise. Avec modes furtifs, rotation de proxies, intégration IA via serveur MCP, et performances fulgurantes surpassant Scrapy/Parsel, il est conçu pour les scrapeurs web sérieux. Installez avec pip et commencez à scraper en minutes !

Lire plus Original

Projets Open Source Pratiques

Agent Reach : Un CLI pour alimenter les agents IA à travers le Web

February 27, 2026

Étiquettes:

Open Source AI Agent CLI tool Web Scraping free APIs

Agent Reach est un outil en ligne de commande sans complication qui donne instantanément à votre agent IA la capacité de lire Twitter, Reddit, YouTube, GitHub et plus encore — sans clés API coûteuses. Le projet regroupe des scrapers open‑source gratuits, gère les informations d’identification par cookie de manière sécurisée, et fournit une CLI plug‑and‑play compatible avec tout agent de coding capable d’exécuter des commandes shell. Dans cet article, vous découvrirez pourquoi la barrière du scraping web est importante pour l’IA, comment Agent Reach installe automatiquement les dépendances, comment configurer chaque canal, et comment garder vos identifiants en sécurité. Que vous soyez ingénieur prompt, développeur, ou simplement curieux de créer des agents plus intelligents, Agent Reach est le premier pas vers un accès complet à l’internet pour l’IA.

Lire plus Original

Projets Open Source Pratiques

Web Scout MCP : Recherche web DuckDuckGo & Extraction

January 23, 2026

Étiquettes:

Open Source AI Assistant Web Scraping MCP duckduckgo

Vous cherchez un plug‑in qui permet à votre assistant d’IA de naviguer sur le web en toute sécurité ? Web Scout MCP apporte une recherche DuckDuckGo axée sur la confidentialité et une extraction de contenu simplifiée directement dans votre environnement MCP. Grâce à une CLI intuitive, un support Docker simple et la gestion parallèle des URL, les développeurs peuvent disposer d’une recherche web prête à l’emploi sur demande. Continuez à lire pour voir comment l’installer, l’intégrer à Claude Desktop ou Cursor, et utiliser les outils DuckDuckGo et d’extraction pour récupérer un texte propre depuis n’importe quel site.

Lire plus Original

Projets Open Source Pratiques

LLM Scraper : Transformez les pages Web en données structurées

July 20, 2025

Étiquettes:

Open Source LLM Web Scraping Playwright TypeScript

Découvrez LLM Scraper, une puissante bibliothèque TypeScript qui exploite les grands modèles de langage pour transformer n'importe quelle page web en données structurées. Ce projet open-source, basé sur Playwright, prend en charge divers fournisseurs de LLM tels que GPT, Gemini et Llama, et permet la définition de schémas avec Zod ou JSON Schema pour une extraction type-safe. Apprenez comment démarrer, vous intégrer avec des LLM populaires, et même générer du code de scraping réutilisable. Explorez ses fonctionnalités comme la prise en charge d'entrées multimodales pour les captures d'écran et les capacités de streaming. LLM Scraper est idéal pour les développeurs à la recherche de solutions de web scraping efficaces alimentées par l'IA.

Lire plus Original

Projets Open Source Pratiques

Extracteur Google Play : Récupérer des Données d'Applications avec Node.js

July 10, 2025

Étiquettes:

Open Source Node.js Data Extraction Web Scraping Google Play API

Découvrez « google-play-scraper », un puissant module Node.js conçu pour extraire sans effort de grandes quantités de données du Google Play Store. Cet outil open-source permet aux développeurs et aux chercheurs de récupérer par programmation des détails sur les applications, des avis, des informations sur les développeurs, et bien plus encore. Facile à installer via npm et accompagné d'exemples d'utilisation clairs, c'est une ressource inestimable pour quiconque a besoin d'analyser les données de Google Play. Apprenez à utiliser ses différentes méthodes pour lister des applications, rechercher par termes, récupérer les permissions, et même gérer les informations de sécurité des données, ce qui en fait un ajout polyvalent à votre boîte à outils de développement. Des démonstrations pratiques et des conseils pour gérer les requêtes sont inclus.

Lire plus Original

Projets Open Source Pratiques

Crawlee : La puissance du web scraping fiable avec Node.js

July 09, 2025

Étiquettes:

Open Source Automation Node.js Data Extraction Web Scraping

Découvrez Crawlee, la puissante bibliothèque Node.js dédiée au web scraping et à l'automatisation de navigateurs. Apprenez comment cet outil open source permet aux développeurs de construire des robots d'exploration robustes et fiables, grâce à des fonctionnalités telles que la rotation de proxys, l'évasion des protections anti-bots, et la compatibilité avec Puppeteer et Playwright. Que vous extraiez des données pour l'IA, les LLM ou pour de la collecte de données générale, Crawlee simplifie le processus. Explorez ses capacités et découvrez comment démarrer avec l'installation et l'utilisation de base. Idéal pour les développeurs JavaScript et TypeScript désireux d'améliorer leurs flux de travail d'extraction de données et de s'assurer que leurs crawlers fonctionnent efficacement et sans être détectés.

Lire plus Original

Projets Open Source Pratiques

MediaCrawler : Scraping de données de réseaux sociaux en open-source

July 05, 2025

Étiquettes:

Open Source Python Web Scraping Playwright Social Media Data

Découvrez MediaCrawler, un puissant outil open-source en Python conçu pour extraire des données publiques des principales plateformes de médias sociaux chinoises, telles que Xiaohongshu, Douyin, Kuaishou, Bilibili, Weibo, Baidu Tieba et Zhihu. En tirant parti de Playwright pour l'automatisation du navigateur, il simplifie la collecte de données à des fins de recherche ou d'analyse, sans nécessiter de rétro-ingénierie complexe. Ce projet est idéal pour les développeurs et les chercheurs à la recherche d'une solution robuste et facile à utiliser pour l'acquisition de données sur les plateformes médiatiques. Découvrez ses fonctionnalités, son installation et comment il peut vous aider dans vos projets basés sur les données.

Lire plus Original

Projets Open Source Pratiques

Crawlee-Python : La bibliothèque ultime pour le web scraping

June 29, 2025

Étiquettes:

Open Source Python Automation Web Scraping Crawlee

Découvrez Crawlee-Python, une bibliothèque robuste et fiable pour le web scraping et l'automatisation de navigateurs. Idéale pour l'extraction de données pour l'IA, les LLM, le RAG et les GPT, Crawlee gère tout, du téléchargement de divers types de fichiers à l'intégration avec BeautifulSoup, Playwright et le HTTP brut. Elle prend en charge les modes avec ou sans interface graphique (headful et headless), offrant la rotation de proxys et des fonctionnalités avancées pour la création de crawlers résilients. Cette bibliothèque simplifie les tâches de scraping complexes, garantissant l'efficacité et la performance de vos projets. Apprenez comment Crawlee révolutionne la collecte de données web et l'automatisation pour les développeurs.

Lire plus Original

Projets Open Source Pratiques

Firecrawl : Transformez les sites web en données prêtes pour les LLM

June 28, 2025

Étiquettes:

Open Source AI Development Data Extraction LLM Data Web Scraping

Découvrez Firecrawl, la puissante solution open-source de web scraping et de crawling conçue spécifiquement pour les applications d'IA. Elle transforme les données brutes de sites web en formats propres et prêts pour les LLM, en s'intégrant parfaitement avec des outils d'IA populaires comme LlamaIndex et Langchain. Apprenez comment Firecrawl gère le contenu dynamique, assure une extraction fiable des données et prend en charge divers cas d'utilisation, des chats IA à la recherche approfondie, en faisant un outil essentiel pour les développeurs qui créent des solutions basées sur l'IA. Démarrez gratuitement et adaptez à mesure que vos besoins évoluent.

Lire plus Original

Catégories

Publications marquées avec: Web Scraping

Scrapling : Le framework ultime de web scraping Python

Agent Reach : Un CLI pour alimenter les agents IA à travers le Web

Web Scout MCP : Recherche web DuckDuckGo & Extraction

LLM Scraper : Transformez les pages Web en données structurées

Extracteur Google Play : Récupérer des Données d'Applications avec Node.js

Crawlee : La puissance du web scraping fiable avec Node.js

MediaCrawler : Scraping de données de réseaux sociaux en open-source

Crawlee-Python : La bibliothèque ultime pour le web scraping

Firecrawl : Transformez les sites web en données prêtes pour les LLM