VisionClaw:スマートグラス向けリアルタイム Gemini AI アシスタント

VisionClaw – Meta Ray‑Ban スマートグラス向けリアルタイム AI アシスタント

VisionClaw プロジェクトは、Meta Ray‑Ban グラス(または任意のスマートフォンカメラ)をハンズフリーで音声とビジョンを統合したアシスタントへと変える方法を示しています。Google の Gemini Live API を多モーダル対話に活用し、オプションで OpenClaw ゲートウェイをエージェンシックなツールコールに使用することで、アプリはユーザーに次のような機能を提供します。

  • 「何を見ているの?」と尋ねると、シーンの音声説明が得られます。
  • 食料品リストに項目を追加したり、リマインダーを作成したり、WhatsApp、Telegram、iMessage を通じて即時メッセージを送信できます。
  • ウェブ検索、スマートホームデバイスの制御、画面タッチなしでノート管理も可能です。
  • ガラスのビューポイントをライブでブラウザにストリームし、リモート閲覧や共同作業を実現します。

なぜ VisionClaw なのか? VisionClaw は単なるサンプルコードではありません。iOS/Android の開発と実際の AI サービスを組み合わせた、エンドツーエンドの完全機能パイプラインです。ビジュアル認知、自然言語インタラクション、オートメーションを統合した AR アプリの作成を目指す開発者にとって、十分なテンプレートとなっています。


プロジェクト概要

機能 iOS (Swift) Android (Java/Kotlin)
リアルタイム音声+ビジョン はい はい
Gemini Live WebSocket はい はい
OpenClaw ツールコール 任意 任意
フォンモードテスト はい はい
WebRTC ストリーミング はい はい
SDK 依存関係 Meta DAT SDK, OpenClaw Meta DAT SDK, OpenClaw

リポジトリ構成: - samples/ – iOS・Android 用のカメラアクセスプロジェクトを分離。 - assets/ – スクリーンショット、アーキテクチャ図、ティーザ画像。 - README.md – 完全ドキュメント、クイックスタート、アーキテクチャメモ。 - CHANGELOG.md – リリース履歴。 - LICENSE – MIT ライセンス。


クイックスタート

1️⃣ リポジトリをクローン

git clone https://github.com/sseanliu/VisionClaw.git

2️⃣ iOS 設定

  1. samples/CameraAccess/CameraAccess.xcodeproj を Xcode 15+ で開きます。
  2. サンプルシークレットをコピー: cp CameraAccess/Secrets.swift.example CameraAccess/Secrets.swift
  3. Secrets.swift を編集し、Gemini API キーと必要に応じて OpenClaw 設定を挿入します。
  4. iPhone ターゲットを選択し Run (⌘R)を押します。
  5. アプリ内で iPhone で開始(カメラモード)または ストリーミング開始(グラスモード)をタップし、AI ボタンを押して会話を開始します。

3️⃣ Android 設定

  1. samples/CameraAccessAndroid を Android Studio で開きます。
  2. GitHub Packages を構成: local.propertiesgithub_tokenread:packages スコープ)を追加します。
  3. シークレット例をコピー: cp secrets.kt.example secrets.kt し、Gemini キーを入力します。
  4. Gradle を同期し、デバイス(Shift+F10)で実行します。
  5. 電話で開始 または ストリーミング開始 をタップし、AI ボタンを使用します。

4️⃣ (オプション)OpenClaw を組み込む

OpenClaw は Slack への投稿、カレンダーイベントの追加、Philips Hue の制御など、エージェンシックなアクションを提供します。 1. Mac に OpenClaw ゲートウェイをインストールして起動します。 2. Secrets.swift または Secrets.kt でホスト、ポート、トークンを設定します。 3. アプリ設定で OpenClaw セクションを有効にします。 4. 例として「ミルクを買い物リストに追加」などのタスクをテストすると、ゲートウェイが実行します!


アーキテクチャ スナップショット

How It Works

  1. カメラ / マイク – 1fps 程度のビデオフレームと 16 kHz PCM 音声を取得。
  2. アプリ層 – Gemini Live WebSocket(バイナリ)でフレーム&音声を送信。
  3. Gemini Live – マルチモーダル入力を処理し、音声・テキスト・ツールコールを返却。
  4. OpenClaw(任意) – ツールコールを受け取り、56+ スキル API を介してアクションを実行し、結果を返す。
  5. オーディオパイプライン – Gemini の 24 kHz PCM をデバイススピーカーへストリーム。
  6. WebRTC – オプションでグラスビューをブラウザへライブストリーム。

トラブルシューティングとヒント

問題 対処
Gemini が聞こえない マイク権限を確認し、アプリ内の音声アクティビティ設定を調整します。
OpenClaw 接続タイムアウト 電話と Mac が同一 Wi‑Fi にあるか確認し、ゲートウェイが稼働しているかチェック。 Bonjour ホスト名を正しく設定します。
Gradle 同期 401 エラー local.properties のトークンに read:packages スコープを含めます。 gh auth token または手動 GitHub トークンを使用します。
オーディオ再生なし RECORD_AUDIO と PLAY_AUDIO 権限を確認。 Android 13+ では設定画面から手動で許可します。
カメラが起動しない CAMERA 権限とライフサイクルハンドリングを確認。 新規デバイスでテストします。

リアルワールドユースケース

  • フィールドリサーチ – 試験品を山中で解析する科学者が、グラスをつけて「このサンプルは何?」と尋ね、注釈付き説明を得ます。
  • 小売支援 – 店内スタッフがカートに項目を追加したり、在庫情報をハンズフリーで確認できます。
  • 遠隔支援 – エンジニアが自身の視界を遠隔エキスパートへストリームし、AI が音声指示を処理します。
  • アクセシビリティ – 視覚障害者がリアルタイムでシーン説明と操作案内を受けられます。

締めくくり

VisionClaw は、マルチモーダル大型言語モデルを日常のウェアラブルデバイスに統合する実践的なデモです。最先端 AI と信頼できるオープンソースツールコールを single GitHub リポジトリにまとめ、明確なドキュメントでサポートしています。次世代のハンズフリーアシスタントを構築したいなら、VisionClaw は確かな基盤であり、さらに野心的なプロジェクトへと発展させる足掛かりとなります。

次のステップ:リポジトリをフォークし、Gemini プロンプトをカスタマイズ、OpenClaw に新しいスキルを追加、あるいは独自のウェアラブル SDK を統合。ハッキングを楽しんでください!

この記事を共有