VisionClaw:适用于智能眼镜的实时 Gemini AI 助手

VisionClaw – Meta Ray‑Ban 智能眼镜的实时 AI 助手

VisionClaw 项目展示了如何将 Meta Ray‑Ban 眼镜(或任何手机摄像头)转变为一个免提、语音与视觉交互的助手。借助 Google 的 Gemini Live API 进行多模态对话,并可选择性使用 OpenClaw 网关进行代理工具调用,App 让用户可以: - 提问 “我在看什么?”并得到场景的口述描述。 - 添加购物清单、创建提醒或通过 WhatsApp、Telegram 或 iMessage 发送即时消息。 - 在不触碰屏幕的情况下搜索网页、控制智能家居设备或管理笔记。 - 将视线实时流式传输至浏览器,实现远程查看或协作。

为什么选择 VisionClaw? VisionClaw 不仅仅是一个代码示例——它是一个完整功能、端到端的工作流,将 iOS/Android 开发与真实世界的 AI 服务无缝结合。它为想要打造融合视觉感知、自然语言交互与自动化的 AR 应用的开发者提供了一个模板。


项目概览

功能 iOS (Swift) Android (Java/Kotlin)
实时语音 + 视觉
Gemini Live WebSocket
OpenClaw 工具调用 可选 可选
手机模式测试
WebRTC 流媒体
SDK 依赖 Meta DAT SDK, OpenClaw Meta DAT SDK, OpenClaw

仓库结构: - samples/ – 分别为 iOS 与 Android 的摄像头访问示例项目。 - assets/ – 截图、架构图、预告图像。 - README.md – 完整文档、快速入门、架构说明。 - CHANGELOG.md – 发行历史。 - LICENSE – MIT 许可证。


快速开始

1️⃣ 克隆仓库

git clone https://github.com/sseanliu/VisionClaw.git

2️⃣ iOS 设置

  1. 用 Xcode 15+ 打开 samples/CameraAccess/CameraAccess.xcodeproj
  2. 复制示例密钥文件:cp CameraAccess/Secrets.swift.example CameraAccess/Secrets.swift
  3. 编辑 Secrets.swift,填入你的 Gemini API Key;如需,可添加 OpenClaw 设置。
  4. 选择 iPhone 目标并点击 Run (⌘R)。
  5. 在 App 内点击 Start on iPhone (摄像头模式) 或 Start Streaming (眼镜模式),然后按 AI 按钮开始交流。

3️⃣ Android 设置

  1. 用 Android Studio 打开 samples/CameraAccessAndroid
  2. 配置 GitHub Packages:在 local.properties 中添加具有 read:packages 范围的 github_token
  3. 复制示例密钥:cp secrets.kt.example secrets.kt 并填写 Gemini Key。
  4. 同步 Gradle 并在设备上运行(Shift+F10)。
  5. 点击 Start on PhoneStart Streaming,随后使用 AI 按钮。

4️⃣(可选)接入 OpenClaw

OpenClaw 能实现发帖至 Slack、添加日历事件或控制 Philips Hue 灯等代理动作。 1. 在 Mac 上安装并运行 OpenClaw 网关。 2. 在 Secrets.swiftSecrets.kt 中配置 host、port 与 token。 3. 在 App 设置中启用 OpenClaw 部分。 4. 尝试执行“Add milk to my shopping list”之类的任务——网关将执行并返回结果!


架构快照

工作原理

  1. 摄像头 / 麦克风 – 捕获视频帧(约 1fps)和音频(16kHz PCM)。
  2. App 层 – 通过 Gemini Live WebSocket(二进制)发送帧与音频。
  3. Gemini Live – 处理多模态输入;返回语音、文本及工具调用。
  4. OpenClaw(可选) – 接收工具调用,通过其 56+ 技能 API 完成动作,并返回结果。
  5. 音频管线 – 将 Gemini 的 24kHz PCM 语音回传至设备扬声器。
  6. WebRTC – 可选地将眼镜视角实时流式传输至浏览器。

故障排除与小贴士

问题 解决办法
Gemini 监听不到声音 检查麦克风权限;调整 App 内的活声检测设置。
OpenClaw 连接超时 确保手机与 Mac 在同一 Wi‑Fi;确认网关正在运行;使用正确的 Bonjour 主机名。
Gradle 同步 401 错误 local.properties 中的 token 必须包含 read:packages 范围。使用 gh auth token 或手动 GitHub token。
无音频播放 检查 RECORD_AUDIO 与 PLAY_AUDIO 权限;在 Android 13+ 上手动在设置中授权。
摄像头无启动 确认 CAMERA 权限及生命周期管理;在全新设备上测试。

真实应用场景

  • 野外科研 – 科学家佩戴 Ray‑Ban 眼镜,可询问路径上的标本并得到标注性描述,而无需取出手机。
  • 零售助手 – 现场陈列员可免提添加购买清单或查询库存信息。
  • 远程协助 – 工程师可将视角流式传输给远程专家,AI 执行语音指令。
  • 无障碍 – 视障用户可获得实时场景描述及操作提示。

结语

VisionClaw 是多模态大型语言模型与可穿戴设备相结合的实用范例。它将尖端 AI 与可靠的开源工具调用相融合,全部集中在一个 GitHub 仓库中,拥有清晰的文档。若你正着手打造下一代免提助手,VisionClaw 是稳固的起点,也是迈向更宏大项目的跳板。

下一步:分叉仓库,尝试自定义 Gemini 提示,新增 OpenClaw 技能,或集成你自己的可穿戴 SDK。祝你玩得开心!

原创文章: 查看原文

分享本文