Web Scraping - 开源项目

Scrapling：终极 Python Web 抓取框架

March 01, 2026

标签:

Python Web Scraping Web Crawler scrapy cloudflare bypass

发现 Scrapling，这个自适应 Web 抓取框架，能够处理从单个请求到全规模爬取的一切任务。绕过 Cloudflare Turnstile，使用智能元素跟踪，即使网站变化也能存活，并通过支持暂停/恢复的并发蜘蛛实现扩展。配备隐身模式、代理轮换、通过 MCP 服务器的 AI 集成，以及超越 Scrapy/Parsel 的闪电般性能，它是为严肃的 Web 抓取者量身打造的。只需 pip 安装，即可在几分钟内开始抓取！

阅读更多原始

实用开源项目

Agent Reach：一条命令行，赋能 AI 代理跨网全能。

February 27, 2026

标签:

Open Source AI Agent CLI tool Web Scraping free APIs

Agent Reach 是一款零负担的命令行工具，瞬间赋予 AI 代理读取 Twitter、Reddit、YouTube、GitHub 等网站的能力——无需昂贵的 API 密钥。该项目打包了可免费使用的开源抓取器，安全管理 cookie 凭证，并提供可即插即用的 CLI，适用于任何支持 shell 命令的编码代理。在本文中，您将了解为何网页抓取门槛对 AI 重要，Agent Reach 如何自动安装依赖，如何配置每个频道，以及如何保持凭证安全。无论您是 prompt 工程师、开发者，还是对构建更智慧的代理感到好奇，Agent Reach 都是实现全网 AI 访问的第一步。

阅读更多原始

实用开源项目

Web Scout MCP：DuckDuckGo 网络搜索与提取

January 23, 2026

标签:

Open Source AI Assistant Web Scraping MCP duckduckgo

想寻找一个让 AI 助手安全浏览网页的插件吗？Web Scout MCP 将面向隐私的 DuckDuckGo 搜索和简化的内容提取直接带入您的 MCP 环境。凭借直观的命令行、轻量级 Docker 支持以及并行 URL 处理，开发者即可按需获得即用型网络搜索。继续阅读，了解如何安装、与 Claude Desktop 或 Cursor 集成，并利用 DuckDuckGo 与提取工具从任何网站获取干净文本。

阅读更多原始

实用开源项目

LLM 网页数据抓取器：将网页转换为结构化数据

July 20, 2025

标签:

Open Source LLM Web Scraping Playwright TypeScript

发现 LLM Scraper，一款强大的 TypeScript 库，它利用大型语言模型将任何网页转换为结构化数据。这个开源项目基于 Playwright 构建，支持 GPT、Gemini 和 Llama 等多种 LLM 提供商，并允许使用 Zod 或 JSON Schema 定义模式，实现类型安全的提取。了解如何开始使用、集成常用 LLM，甚至生成可重用的抓取代码。探索其功能，如截图的多模态输入支持和流式处理能力。LLM Scraper 是寻求由 AI 驱动的高效网页抓取解决方案的开发者的理想选择。

阅读更多原始

实用开源项目

Google Play 数据抓取工具：使用 Node.js 提取应用数据

July 10, 2025

标签:

Open Source Node.js Data Extraction Web Scraping Google Play API

探索“google-play-scraper”，这是一个功能强大的Node.js模块，旨在帮助您轻松地从Google Play商店抓取海量数据。这款开源工具让开发者和研究人员能够通过编程方式获取应用详情、用户评论、开发者信息等。通过npm轻松安装，并附有清晰的使用示例，它对于任何需要分析Google Play数据的人来说都是一个宝贵的资源。了解如何使用其各种方法来列出应用、按关键词搜索、检索权限，甚至处理数据安全信息，使其成为您开发工具包中一个多功能的补充。其中还包含了实用的演示和管理请求的技巧。

阅读更多原始

实用开源项目

Crawlee：助力 Node.js 实现可靠网络爬取

July 09, 2025

标签:

Open Source Automation Node.js Data Extraction Web Scraping

探索 Crawlee，这款功能强大的 Node.js 库，专为网络爬取和浏览器自动化而设计。了解这个开源工具如何帮助开发者构建稳定可靠的爬虫，它集成了代理轮换、规避机器人保护等功能，并全面支持 Puppeteer 和 Playwright。无论您是为了AI、大型语言模型（LLMs）还是进行一般数据收集而提取数据，Crawlee 都能让整个过程变得更加顺畅。深入了解其各项功能，并学习如何开始安装和进行基本使用。对于希望提升数据提取效率，并确保其爬虫能够高效运行且不被轻易察觉的 JavaScript 和 TypeScript 开发者而言，Crawlee 是理想之选。

阅读更多原始

实用开源项目

MediaCrawler: 开源社交媒体数据爬取工具

July 05, 2025

标签:

Open Source Python Web Scraping Playwright Social Media Data

隆重推出 MediaCrawler，这是一个功能强大的开源 Python 工具，专为抓取中国各大社交媒体平台（如小红书、抖音、快手、哔哩哔哩、微博、百度贴吧和知乎）上的公开数据而设计。它利用 Playwright 进行浏览器自动化，极大地简化了数据采集过程，无论是用于研究还是分析，都无需复杂的逆向工程。对于寻求强大、易用解决方案以获取媒体平台数据的开发者和研究人员而言，MediaCrawler 是一个理想的选择。了解它的功能、安装方法以及它如何助力您的数据驱动项目。

阅读更多原始

实用开源项目

Crawlee-Python：您的终极网络爬取利器

June 29, 2025

标签:

Open Source Python Automation Web Scraping Crawlee

探索 Crawlee-Python，一个强大而可靠的网络爬虫和浏览器自动化库。它非常适合为 AI、LLM、RAG 和 GPT 模型提取数据，能够处理从下载各种文件类型到与 BeautifulSoup、Playwright 和原生 HTTP 交互的各种任务。它支持有头和无头模式，提供代理轮换和高级功能，用于构建高弹性的爬虫。这个库简化了复杂的爬取任务，确保您的项目高效且成果显著。了解 Crawlee 如何革新开发者进行网络数据收集和自动化。

阅读更多原始

实用开源项目

Firecrawl：将网站转化为大型语言模型（LLM）可用数据

June 28, 2025

标签:

Open Source AI Development Data Extraction LLM Data Web Scraping

探索 Firecrawl，这款功能强大的开源网络抓取和爬虫解决方案，专为 AI 应用设计。它能将原始网站数据转化为干净、可供大型语言模型 (LLM) 使用的格式，并与 LlamaIndex 和 Langchain 等热门 AI 工具无缝集成。了解 Firecrawl 如何处理动态内容、提供可靠的数据提取，支持从 AI 对话到深度研究的各种用例，使其成为开发者构建 AI 驱动解决方案的必备工具。免费开始使用，并随着需求增长进行扩展。

阅读更多原始

分类

标记为的帖子: Web Scraping

Scrapling：终极 Python Web 抓取框架

Agent Reach：一条命令行，赋能 AI 代理跨网全能。

Web Scout MCP：DuckDuckGo 网络搜索与提取

LLM 网页数据抓取器：将网页转换为结构化数据

Google Play 数据抓取工具：使用 Node.js 提取应用数据

Crawlee：助力 Node.js 实现可靠网络爬取

MediaCrawler: 开源社交媒体数据爬取工具

Crawlee-Python：您的终极网络爬取利器

Firecrawl：将网站转化为大型语言模型（LLM）可用数据