Peekaboo:AI 驱动的 macOS CLI,用于截图和 GUI

Peekaboo:AI 驱动的 macOS CLI,用于截图和 GUI

在人工智能日益融入工作流程的时代,拥有一款能够“看到”并“行动”的轻量级可脚本化工具将是一次颠覆性的变化。Peekaboo 就是这款工具。它是一款免费的 MIT 许可、仅限 macOS 的命令行界面(CLI)和可选的 MCP 服务器,能够让你捕获截图、检查 UI 元素,并发送精准命令——所有操作都可使用 GPT 风格或本地 Ollama 模型对屏幕进行推理。

为什么选择 Peekaboo?它的独特之处

功能 作用 价值
像素级精准捕获 窗口、菜单或整个屏幕截图,可选 Retina 缩放 为 AI 提供可靠的视觉理解所需的高保真度
自然语言导航 类似 peekaboo "打开 Notes 并创建一个 TODO 列表" 的命令 让非技术用户也能用简洁英文撰写自动化脚本
丰富工具集 seeclicktypescrollmenudock 每个工具对应一个 UI 操作,支持复杂工作流程
多模型选择 GPT‑5.1、Claude 4.x、Grok 4‑fast、Gemini 2.5、本地 Ollama 选择符合你隐私需求或预算的模型
CLI + MCP 服务器 仅一份二进制即可在命令行脚本中使用,也可作为 Claude Desktop 或 Cursor 的插件 无需双重工具,功能多样
开源、社区友好 超过 2k 颗星,活跃贡献者,MIT 许可 无锁定条款,你可以 fork 或添加功能

快速上手

1. 安装 macOS App 与 CLI

brew install steipete/tap/peekaboo

Homebrew 公式将 Swift 本地二进制、用于拖放的 macOS 应用以及 Homebrew 管理的 CLI 复制一起打包。

2. 安装为 MCP 服务器(Node 22+)

如果你更喜欢在 JavaScript 环境中使用 Peekaboo,或者想把它与 Claude Desktop/Cursor 的 MCP 接口集成:

npx -y @steipete/peekaboo

这将启动一个默认端口监听的 MCP 服务器,随时接受你喜爱的桌面 AI 请求。

快速示例

下面几个命令行片段展示了 Peekaboo 最常见的使用场景。

# 捕获 Retina 2x 的整个屏幕并保存
peekaboo image --mode screen --retina --path ~/Desktop/screen.png
# 捕获 Safari 的截图,提取快照 ID 并点击某个标签
snapshot_id=$(peekaboo see --app Safari --json-output | jq -r '.data.snapshot_id')
peekaboo click --on "Reload this page" --snapshot "$snapshot_id"
# 运行完整的自然语言自动化脚本
peekaboo "Open Notes and create a TODO list with three items"
# 使用 CLI 列出所有当前窗口
peekaboo list windows

4. 编写 .peekaboo.json 自动化脚本

Peekaboo 的 run 子命令让你能够创建确定性、可测试的工作流程:

{
  "steps": [
    {"click": {"on": "Google Search", "app": "Safari"}},
    {"type": {"text": "OpenAI API", "delay_ms": 200}},
    {"press": {"key": "Enter", "repeat": 1}}
  ]
}

然后执行 peekaboo run script.json

使用自定义 AI 模型扩展工具

Peekaboo 默认使用 GPT‑5.1,但你可以通过设置 PEEKABOO_AI_PROVIDERS 环境变量或使用 peekaboo config add,让它指向任何 OpenAI、Anthropic、xAI、Gemini 或本地 Ollama 模型:

peekaboo config add openai/gpt-5.1
peekaboo config add anthropic/claude-opus-4
peekaboo config add ollama/llava

在你的 JSON 脚本或交互式提示中,你现在可以让 AI 生成截图坐标、解释视觉信息,或建议后续动作。

常见使用场景

场景 Peekaboo 如何帮助
自动化 UI 测试 使用 see 捕获类似 DOM 的树,利用 clicktype 模拟用户流程,并通过断言脚本比较快照
语音控制工作流 将语音识别输出管道到 Peekaboo 提示,让 AI 决定目标 UI 元素
桌面机器人 将 Peekaboo 与 robotjsexpect 等框架结合,实现跨 macOS 与 AI 的端到端自动化
无障碍审核 通过 see 检查无障碍树并交给 AI 生成审核报告

贡献与社区

Peekaboo 正在 @steipete 与多位贡献者主动维护。如果你想添加新功能、发起拉取请求,或仅仅提出问题,请参考 CONTRIBUTING.md 的指南。

项目的 MIT 许可确保你可以自由 fork、修改和分发,既适合业余爱好者,也适用于专业开发者。

结语

Peekaboo 能将原始截图转化为可编程 UI。无论你是在编写一行自动化脚本,还是构建完整的 AI 驱动桌面助手,这个开源 CLI 都为你提供了强大的功能与智能,且全部免费。快去 macOS 上试试,观察你的生产力飞速提升吧。

祝你自动化愉快!

原创文章: 查看原文

分享本文