Page Agent:用自然语言控制 Web UI

Page Agent:用自然语言控制革新 Web 交互

阿里巴巴的 Page Agent 是一个变革性的开源项目,正在重新定义我们与 Web 界面的交互方式。拥有超过 10.5k GitHub 星标800 个 fork,以及活跃开发(截至 2026 年 3 月最新版 v1.5.9),这个 MIT 许可的 TypeScript 库将 AI 驱动的 GUI 控制直接带入您的网页。

✨ Page Agent 的独特之处?

与其他需要浏览器扩展、Python 环境或无头浏览器的传统自动化工具不同,Page Agent 纯在页内 使用 JavaScript 工作。主要特性包括:

  • 基于文本的 DOM 操作(无需截图或多模态 LLM)
  • 自带 LLM 支持
  • 精美的人机交互 UI
  • 可选 Chrome 扩展 用于多页任务

🚀 闪电般快速集成

<!-- 一行代码演示集成 -->
<script src="https://cdn.jsdelivr.net/npm/[email protected]/dist/iife/page-agent.demo.js" crossorigin="true"></script>

或通过 NPM:

import { PageAgent } from 'page-agent'

const agent = new PageAgent({
  model: 'qwen3.5-plus',
  baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
  apiKey: 'YOUR_API_KEY',
})

await agent.execute('Click the login button')

💡 真实世界用例

  1. SaaS AI 副驾驶:将智能助手嵌入您的产品
  2. 智能表单填写:"用客户数据填写这个 CRM 表单"
  3. 无障碍访问:语音命令和自然语言导航
  4. 多页代理:协调浏览器标签页间的任务

📊 项目统计

  • 语言:TypeScript (81.3%)、JavaScript (11.8%)、CSS (6%)
  • 打包大小:针对生产环境优化
  • 下载量:全球开发者广泛使用
  • 贡献者:15 名活跃维护者

🤝 参与贡献

项目欢迎社区贡献,但保持严格的质量标准(不允许 AI 生成的 PR)。查看 CONTRIBUTING.md 以开始贡献。

Page Agent 基于 browser-use 构建 并感谢其对 Web 自动化模式的奠基贡献。

🎯 开发者为什么喜爱它

Page Agent 消除了基础设施复杂性,同时提供企业级能力。无论您是在构建内部工具、增强 SaaS 产品,还是创建无障碍解决方案,这都是最优雅的 Web 代理解决方案。

⭐ 给仓库加星 并立即探索 demo。Web 交互的未来已来——由自然语言控制。

原创文章: 查看原文

分享本文