Browser Harness:使用 LLM 驱动的智能体实现网页任务自动化

用 Browser Harness 彻底改变您的工作流程

在人工智能飞速发展的今天,弥合大语言模型 (LLM) 与现实世界网页界面之间差距的能力是一项颠覆性的技术。隆重介绍 Browser Harness,这是一个旨在通过轻量级、可编辑的 Chrome DevTools Protocol (CDP) 接口将您的 LLM 直接连接到浏览器的开源项目。

什么是 Browser Harness?

Browser Harness 不仅仅是另一个自动化脚本。它是一个自愈环境,智能体本身会编写执行任务所需的代码。当智能体遇到缺失的辅助函数或复杂的 UI 元素时,它会将必要的逻辑写入 agent_helpers.py 或创建一个新的 domain-skill(领域技能)。这意味着系统在您每次运行它时都会不断改进。

核心功能

  • 直接浏览器控制:通过一个 WebSocket 连接到 Chrome,中间无任何阻碍,为复杂任务提供完全的自由度。
  • 自愈式技能:智能体为特定网站生成自己的“领域技能”。您无需编写选择器,智能体即可学习您最常使用的网站的流程、边缘情况和 UI 特性。
  • Browser Use Cloud:需要扩展规模?该项目集成了 Browser Use Cloud,支持无头部署、代理支持和内置验证码解决功能。
  • 社区驱动:该项目在 GitHub 上拥有超过 1.2 万颗星,得益于社区的贡献而蓬勃发展。您可以轻松地通过 Pull Request 分享您生成的领域技能,帮助他人自动化他们的工作流程。

入门指南

设置 Browser Harness 非常简单。按照 install.md 中的说明,您可以将首选的 LLM(如 Claude)连接到本地浏览器。智能体将引导您完成远程调试设置,使其能够像人类用户一样与您的标签页进行交互。

为什么它很重要

传统的自动化工具在网站更新 UI 时往往会失效。Browser Harness 通过让 AI “看到”浏览器并实时适应来解决这个问题。通过摆脱脆弱的硬编码选择器,转向由智能体生成的领域技能,我们正在进入一个弹性、自主网页智能体的新时代。

准备好停止手动点击并开始自动化了吗?查看 Browser Harness GitHub 仓库,立即开始构建您自己的自主智能体。

原始文章: 查看原文

分享这篇文章