Peekaboo:AI 驱动的 macOS CLI,用于截图和 GUI
Peekaboo:AI 驱动的 macOS CLI,用于截图和 GUI
在人工智能日益融入工作流程的时代,拥有一款能够“看到”并“行动”的轻量级可脚本化工具将是一次颠覆性的变化。Peekaboo 就是这款工具。它是一款免费的 MIT 许可、仅限 macOS 的命令行界面(CLI)和可选的 MCP 服务器,能够让你捕获截图、检查 UI 元素,并发送精准命令——所有操作都可使用 GPT 风格或本地 Ollama 模型对屏幕进行推理。
为什么选择 Peekaboo?它的独特之处
| 功能 | 作用 | 价值 |
|---|---|---|
| 像素级精准捕获 | 窗口、菜单或整个屏幕截图,可选 Retina 缩放 | 为 AI 提供可靠的视觉理解所需的高保真度 |
| 自然语言导航 | 类似 peekaboo "打开 Notes 并创建一个 TODO 列表" 的命令 |
让非技术用户也能用简洁英文撰写自动化脚本 |
| 丰富工具集 | see、click、type、scroll、menu、dock 等 |
每个工具对应一个 UI 操作,支持复杂工作流程 |
| 多模型选择 | GPT‑5.1、Claude 4.x、Grok 4‑fast、Gemini 2.5、本地 Ollama | 选择符合你隐私需求或预算的模型 |
| CLI + MCP 服务器 | 仅一份二进制即可在命令行脚本中使用,也可作为 Claude Desktop 或 Cursor 的插件 | 无需双重工具,功能多样 |
| 开源、社区友好 | 超过 2k 颗星,活跃贡献者,MIT 许可 | 无锁定条款,你可以 fork 或添加功能 |
快速上手
1. 安装 macOS App 与 CLI
brew install steipete/tap/peekaboo
Homebrew 公式将 Swift 本地二进制、用于拖放的 macOS 应用以及 Homebrew 管理的 CLI 复制一起打包。
2. 安装为 MCP 服务器(Node 22+)
如果你更喜欢在 JavaScript 环境中使用 Peekaboo,或者想把它与 Claude Desktop/Cursor 的 MCP 接口集成:
npx -y @steipete/peekaboo
这将启动一个默认端口监听的 MCP 服务器,随时接受你喜爱的桌面 AI 请求。
快速示例
下面几个命令行片段展示了 Peekaboo 最常见的使用场景。
# 捕获 Retina 2x 的整个屏幕并保存
peekaboo image --mode screen --retina --path ~/Desktop/screen.png
# 捕获 Safari 的截图,提取快照 ID 并点击某个标签
snapshot_id=$(peekaboo see --app Safari --json-output | jq -r '.data.snapshot_id')
peekaboo click --on "Reload this page" --snapshot "$snapshot_id"
# 运行完整的自然语言自动化脚本
peekaboo "Open Notes and create a TODO list with three items"
# 使用 CLI 列出所有当前窗口
peekaboo list windows
4. 编写 .peekaboo.json 自动化脚本
Peekaboo 的 run 子命令让你能够创建确定性、可测试的工作流程:
{
"steps": [
{"click": {"on": "Google Search", "app": "Safari"}},
{"type": {"text": "OpenAI API", "delay_ms": 200}},
{"press": {"key": "Enter", "repeat": 1}}
]
}
然后执行 peekaboo run script.json。
使用自定义 AI 模型扩展工具
Peekaboo 默认使用 GPT‑5.1,但你可以通过设置 PEEKABOO_AI_PROVIDERS 环境变量或使用 peekaboo config add,让它指向任何 OpenAI、Anthropic、xAI、Gemini 或本地 Ollama 模型:
peekaboo config add openai/gpt-5.1
peekaboo config add anthropic/claude-opus-4
peekaboo config add ollama/llava
在你的 JSON 脚本或交互式提示中,你现在可以让 AI 生成截图坐标、解释视觉信息,或建议后续动作。
常见使用场景
| 场景 | Peekaboo 如何帮助 |
|---|---|
| 自动化 UI 测试 | 使用 see 捕获类似 DOM 的树,利用 click 与 type 模拟用户流程,并通过断言脚本比较快照 |
| 语音控制工作流 | 将语音识别输出管道到 Peekaboo 提示,让 AI 决定目标 UI 元素 |
| 桌面机器人 | 将 Peekaboo 与 robotjs 或 expect 等框架结合,实现跨 macOS 与 AI 的端到端自动化 |
| 无障碍审核 | 通过 see 检查无障碍树并交给 AI 生成审核报告 |
贡献与社区
Peekaboo 正在 @steipete 与多位贡献者主动维护。如果你想添加新功能、发起拉取请求,或仅仅提出问题,请参考 CONTRIBUTING.md 的指南。
项目的 MIT 许可确保你可以自由 fork、修改和分发,既适合业余爱好者,也适用于专业开发者。
结语
Peekaboo 能将原始截图转化为可编程 UI。无论你是在编写一行自动化脚本,还是构建完整的 AI 驱动桌面助手,这个开源 CLI 都为你提供了强大的功能与智能,且全部免费。快去 macOS 上试试,观察你的生产力飞速提升吧。
祝你自动化愉快!