Page Agent:用自然语言控制 Web UI
Page Agent:用自然语言控制革新 Web 交互
阿里巴巴的 Page Agent 是一个变革性的开源项目,正在重新定义我们与 Web 界面的交互方式。拥有超过 10.5k GitHub 星标、800 个 fork,以及活跃开发(截至 2026 年 3 月最新版 v1.5.9),这个 MIT 许可的 TypeScript 库将 AI 驱动的 GUI 控制直接带入您的网页。
✨ Page Agent 的独特之处?
与其他需要浏览器扩展、Python 环境或无头浏览器的传统自动化工具不同,Page Agent 纯在页内 使用 JavaScript 工作。主要特性包括:
- 基于文本的 DOM 操作(无需截图或多模态 LLM)
- 自带 LLM 支持
- 精美的人机交互 UI
- 可选 Chrome 扩展 用于多页任务
🚀 闪电般快速集成
<!-- 一行代码演示集成 -->
<script src="https://cdn.jsdelivr.net/npm/[email protected]/dist/iife/page-agent.demo.js" crossorigin="true"></script>
或通过 NPM:
import { PageAgent } from 'page-agent'
const agent = new PageAgent({
model: 'qwen3.5-plus',
baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
apiKey: 'YOUR_API_KEY',
})
await agent.execute('Click the login button')
💡 真实世界用例
- SaaS AI 副驾驶:将智能助手嵌入您的产品
- 智能表单填写:"用客户数据填写这个 CRM 表单"
- 无障碍访问:语音命令和自然语言导航
- 多页代理:协调浏览器标签页间的任务
📊 项目统计
- 语言:TypeScript (81.3%)、JavaScript (11.8%)、CSS (6%)
- 打包大小:针对生产环境优化
- 下载量:全球开发者广泛使用
- 贡献者:15 名活跃维护者
🤝 参与贡献
项目欢迎社区贡献,但保持严格的质量标准(不允许 AI 生成的 PR)。查看 CONTRIBUTING.md 以开始贡献。
Page Agent 基于 browser-use 构建 并感谢其对 Web 自动化模式的奠基贡献。
🎯 开发者为什么喜爱它
Page Agent 消除了基础设施复杂性,同时提供企业级能力。无论您是在构建内部工具、增强 SaaS 产品,还是创建无障碍解决方案,这都是最优雅的 Web 代理解决方案。
⭐ 给仓库加星 并立即探索 demo。Web 交互的未来已来——由自然语言控制。
原创文章:
查看原文