VisionClaw：适用于智能眼镜的实时 Gemini AI 助手

February 27, 2026

分类: 实用开源项目

标签:

OpenClaw VisionClaw Meta Ray‑Ban Gemini Live smart-glasses

VisionClaw – Meta Ray‑Ban 智能眼镜的实时 AI 助手

VisionClaw 项目展示了如何将 Meta Ray‑Ban 眼镜（或任何手机摄像头）转变为一个免提、语音与视觉交互的助手。借助 Google 的 Gemini Live API 进行多模态对话，并可选择性使用 OpenClaw 网关进行代理工具调用，App 让用户可以： - 提问 “我在看什么？”并得到场景的口述描述。 - 添加购物清单、创建提醒或通过 WhatsApp、Telegram 或 iMessage 发送即时消息。 - 在不触碰屏幕的情况下搜索网页、控制智能家居设备或管理笔记。 - 将视线实时流式传输至浏览器，实现远程查看或协作。

为什么选择 VisionClaw？ VisionClaw 不仅仅是一个代码示例——它是一个完整功能、端到端的工作流，将 iOS/Android 开发与真实世界的 AI 服务无缝结合。它为想要打造融合视觉感知、自然语言交互与自动化的 AR 应用的开发者提供了一个模板。

项目概览

功能	iOS (Swift)	Android (Java/Kotlin)
实时语音 + 视觉	是	是
Gemini Live WebSocket	是	是
OpenClaw 工具调用	可选	可选
手机模式测试	是	是
WebRTC 流媒体	是	是
SDK 依赖	Meta DAT SDK, OpenClaw	Meta DAT SDK, OpenClaw

仓库结构： - samples/ – 分别为 iOS 与 Android 的摄像头访问示例项目。 - assets/ – 截图、架构图、预告图像。 - README.md – 完整文档、快速入门、架构说明。 - CHANGELOG.md – 发行历史。 - LICENSE – MIT 许可证。

快速开始

1️⃣ 克隆仓库

git clone https://github.com/sseanliu/VisionClaw.git

2️⃣ iOS 设置

用 Xcode 15+ 打开 samples/CameraAccess/CameraAccess.xcodeproj。
复制示例密钥文件：cp CameraAccess/Secrets.swift.example CameraAccess/Secrets.swift。
编辑 Secrets.swift，填入你的 Gemini API Key；如需，可添加 OpenClaw 设置。
选择 iPhone 目标并点击 Run (⌘R)。
在 App 内点击 Start on iPhone (摄像头模式) 或 Start Streaming (眼镜模式)，然后按 AI 按钮开始交流。

3️⃣ Android 设置

用 Android Studio 打开 samples/CameraAccessAndroid。
配置 GitHub Packages：在 local.properties 中添加具有 read:packages 范围的 github_token。
复制示例密钥：cp secrets.kt.example secrets.kt 并填写 Gemini Key。
同步 Gradle 并在设备上运行（Shift+F10）。
点击 Start on Phone 或 Start Streaming，随后使用 AI 按钮。

4️⃣（可选）接入 OpenClaw

OpenClaw 能实现发帖至 Slack、添加日历事件或控制 Philips Hue 灯等代理动作。 1. 在 Mac 上安装并运行 OpenClaw 网关。 2. 在 Secrets.swift 或 Secrets.kt 中配置 host、port 与 token。 3. 在 App 设置中启用 OpenClaw 部分。 4. 尝试执行“Add milk to my shopping list”之类的任务——网关将执行并返回结果！

架构快照

工作原理

摄像头 / 麦克风 – 捕获视频帧（约 1fps）和音频（16kHz PCM）。
App 层 – 通过 Gemini Live WebSocket（二进制）发送帧与音频。
Gemini Live – 处理多模态输入；返回语音、文本及工具调用。
OpenClaw（可选） – 接收工具调用，通过其 56+ 技能 API 完成动作，并返回结果。
音频管线 – 将 Gemini 的 24kHz PCM 语音回传至设备扬声器。
WebRTC – 可选地将眼镜视角实时流式传输至浏览器。

故障排除与小贴士

问题	解决办法
Gemini 监听不到声音	检查麦克风权限；调整 App 内的活声检测设置。
OpenClaw 连接超时	确保手机与 Mac 在同一 Wi‑Fi；确认网关正在运行；使用正确的 Bonjour 主机名。
Gradle 同步 401 错误	`local.properties` 中的 token 必须包含 `read:packages` 范围。使用 `gh auth token` 或手动 GitHub token。
无音频播放	检查 RECORD_AUDIO 与 PLAY_AUDIO 权限；在 Android 13+ 上手动在设置中授权。
摄像头无启动	确认 CAMERA 权限及生命周期管理；在全新设备上测试。

真实应用场景

野外科研 – 科学家佩戴 Ray‑Ban 眼镜，可询问路径上的标本并得到标注性描述，而无需取出手机。
零售助手 – 现场陈列员可免提添加购买清单或查询库存信息。
远程协助 – 工程师可将视角流式传输给远程专家，AI 执行语音指令。
无障碍 – 视障用户可获得实时场景描述及操作提示。

结语

VisionClaw 是多模态大型语言模型与可穿戴设备相结合的实用范例。它将尖端 AI 与可靠的开源工具调用相融合，全部集中在一个 GitHub 仓库中，拥有清晰的文档。若你正着手打造下一代免提助手，VisionClaw 是稳固的起点，也是迈向更宏大项目的跳板。

下一步：分叉仓库，尝试自定义 Gemini 提示，新增 OpenClaw 技能，或集成你自己的可穿戴 SDK。祝你玩得开心！

原始文章: 查看原文

分享这篇文章