VisionClaw:适用于智能眼镜的实时 Gemini AI 助手
VisionClaw – Meta Ray‑Ban 智能眼镜的实时 AI 助手
VisionClaw 项目展示了如何将 Meta Ray‑Ban 眼镜(或任何手机摄像头)转变为一个免提、语音与视觉交互的助手。借助 Google 的 Gemini Live API 进行多模态对话,并可选择性使用 OpenClaw 网关进行代理工具调用,App 让用户可以: - 提问 “我在看什么?”并得到场景的口述描述。 - 添加购物清单、创建提醒或通过 WhatsApp、Telegram 或 iMessage 发送即时消息。 - 在不触碰屏幕的情况下搜索网页、控制智能家居设备或管理笔记。 - 将视线实时流式传输至浏览器,实现远程查看或协作。
为什么选择 VisionClaw? VisionClaw 不仅仅是一个代码示例——它是一个完整功能、端到端的工作流,将 iOS/Android 开发与真实世界的 AI 服务无缝结合。它为想要打造融合视觉感知、自然语言交互与自动化的 AR 应用的开发者提供了一个模板。
项目概览
| 功能 | iOS (Swift) | Android (Java/Kotlin) |
|---|---|---|
| 实时语音 + 视觉 | 是 | 是 |
| Gemini Live WebSocket | 是 | 是 |
| OpenClaw 工具调用 | 可选 | 可选 |
| 手机模式测试 | 是 | 是 |
| WebRTC 流媒体 | 是 | 是 |
| SDK 依赖 | Meta DAT SDK, OpenClaw | Meta DAT SDK, OpenClaw |
仓库结构: - samples/ – 分别为 iOS 与 Android 的摄像头访问示例项目。 - assets/ – 截图、架构图、预告图像。 - README.md – 完整文档、快速入门、架构说明。 - CHANGELOG.md – 发行历史。 - LICENSE – MIT 许可证。
快速开始
1️⃣ 克隆仓库
git clone https://github.com/sseanliu/VisionClaw.git
2️⃣ iOS 设置
- 用 Xcode 15+ 打开 samples/CameraAccess/CameraAccess.xcodeproj。
- 复制示例密钥文件:
cp CameraAccess/Secrets.swift.example CameraAccess/Secrets.swift。 - 编辑
Secrets.swift,填入你的 Gemini API Key;如需,可添加 OpenClaw 设置。 - 选择 iPhone 目标并点击 Run (⌘R)。
- 在 App 内点击 Start on iPhone (摄像头模式) 或 Start Streaming (眼镜模式),然后按 AI 按钮开始交流。
3️⃣ Android 设置
- 用 Android Studio 打开 samples/CameraAccessAndroid。
- 配置 GitHub Packages:在
local.properties中添加具有read:packages范围的github_token。 - 复制示例密钥:
cp secrets.kt.example secrets.kt并填写 Gemini Key。 - 同步 Gradle 并在设备上运行(Shift+F10)。
- 点击 Start on Phone 或 Start Streaming,随后使用 AI 按钮。
4️⃣(可选)接入 OpenClaw
OpenClaw 能实现发帖至 Slack、添加日历事件或控制 Philips Hue 灯等代理动作。
1. 在 Mac 上安装并运行 OpenClaw 网关。
2. 在 Secrets.swift 或 Secrets.kt 中配置 host、port 与 token。
3. 在 App 设置中启用 OpenClaw 部分。
4. 尝试执行“Add milk to my shopping list”之类的任务——网关将执行并返回结果!
架构快照

- 摄像头 / 麦克风 – 捕获视频帧(约 1fps)和音频(16kHz PCM)。
- App 层 – 通过 Gemini Live WebSocket(二进制)发送帧与音频。
- Gemini Live – 处理多模态输入;返回语音、文本及工具调用。
- OpenClaw(可选) – 接收工具调用,通过其 56+ 技能 API 完成动作,并返回结果。
- 音频管线 – 将 Gemini 的 24kHz PCM 语音回传至设备扬声器。
- WebRTC – 可选地将眼镜视角实时流式传输至浏览器。
故障排除与小贴士
| 问题 | 解决办法 |
|---|---|
| Gemini 监听不到声音 | 检查麦克风权限;调整 App 内的活声检测设置。 |
| OpenClaw 连接超时 | 确保手机与 Mac 在同一 Wi‑Fi;确认网关正在运行;使用正确的 Bonjour 主机名。 |
| Gradle 同步 401 错误 | local.properties 中的 token 必须包含 read:packages 范围。使用 gh auth token 或手动 GitHub token。 |
| 无音频播放 | 检查 RECORD_AUDIO 与 PLAY_AUDIO 权限;在 Android 13+ 上手动在设置中授权。 |
| 摄像头无启动 | 确认 CAMERA 权限及生命周期管理;在全新设备上测试。 |
真实应用场景
- 野外科研 – 科学家佩戴 Ray‑Ban 眼镜,可询问路径上的标本并得到标注性描述,而无需取出手机。
- 零售助手 – 现场陈列员可免提添加购买清单或查询库存信息。
- 远程协助 – 工程师可将视角流式传输给远程专家,AI 执行语音指令。
- 无障碍 – 视障用户可获得实时场景描述及操作提示。
结语
VisionClaw 是多模态大型语言模型与可穿戴设备相结合的实用范例。它将尖端 AI 与可靠的开源工具调用相融合,全部集中在一个 GitHub 仓库中,拥有清晰的文档。若你正着手打造下一代免提助手,VisionClaw 是稳固的起点,也是迈向更宏大项目的跳板。
下一步:分叉仓库,尝试自定义 Gemini 提示,新增 OpenClaw 技能,或集成你自己的可穿戴 SDK。祝你玩得开心!