VisionClaw : Assistant IA Gemini en temps réel pour lunettes intelligentes

VisionClaw — Un assistant IA en temps réel pour les lunettes intelligentes Meta Ray‑Ban

Le projet VisionClaw démontre comment transformer les lunettes Meta Ray‑Ban (ou n’importe quel appareil photo de téléphone) en un assistant mains‑libres, voix‑et‑vision. Alimenté par l’API Gemini Live de Google pour des conversations multimodales et éventuellement le passerelle OpenClaw pour l’appel d’outils agentiques, l’application permet aux utilisateurs :

  • Demandez « Que regarde‑je ? » et obtenez une description orale de la scène.
  • Ajoutez des articles d’épicerie, créez des rappels ou envoyez des messages instantanés via WhatsApp, Telegram ou iMessage.
  • Recherchez sur le Web, contrôlez des appareils domotiques ou gérez des notes sans toucher un écran.
  • Diffusez en direct la vue des lunettes vers un navigateur pour une visualisation ou collaboration à distance.

Pourquoi VisionClaw ? VisionClaw n’est pas seulement un échantillon de code — c’est un pipeline complet, de bout en bout, qui combine le développement iOS/Android avec des services d’IA réels. Il sert de modèle aux développeurs qui souhaitent créer des applications AR combinant perception visuelle, interaction en langage naturel et automatisation.


Vue d’ensemble du projet

| Fonctionnalité | iOS (Swift) | Android (Java/Kotlin) | |--------|-------------|------|---------------| | Voix + vision en temps réel | Oui | Oui | | Gemini Live WebSocket | Oui | Oui | | OpenClaw appel d’outils | Optionnel | Optionnel | | Test en mode téléphone | Oui | Oui | | Streaming WebRTC | Oui | Oui | | Dépendances SDK | Meta DAT SDK, OpenClaw | Meta DAT SDK, OpenClaw |

La structure du dépôt : - samples/ – Projets d’accès caméra séparés pour iOS et Android. - assets/ – Captures d’écran, diagramme d’architecture, image teaser. - README.md – Documentation complète, démarrage rapide, notes d’architecture. - CHANGELOG.md – Historique des versions. - LICENSE – Licence MIT.


Démarrage rapide

1️⃣ Cloner le dépôt

 git clone https://github.com/sseanliu/VisionClaw.git

2️⃣ Configuration iOS

  1. Ouvrez samples/CameraAccess/CameraAccess.xcodeproj dans Xcode 15+.
  2. Copiez le fichier secrets d’exemple : cp CameraAccess/Secrets.swift.example CameraAccess/Secrets.swift
  3. Éditez Secrets.swift – insérez votre clé API Gemini et, si désiré, les paramètres OpenClaw.
  4. Choisissez une cible iPhone et pressez Run (⌘R).
  5. Dans l’application, appuyez sur Start on iPhone (mode caméra) ou Start Streaming (mode lunettes). Puis pressez le bouton AI pour converser.

3️⃣ Configuration Android

  1. Ouvrez samples/CameraAccessAndroid dans Android Studio.
  2. Configurez GitHub Packages : ajoutez un github_token avec la portée read:packages à local.properties.
  3. Copiez l’exemple secrets : cp secrets.kt.example secrets.kt et remplissez votre clé Gemini.
  4. Synchronisez Gradle et lancez sur un appareil (Shift+F10).
  5. Appuyez sur Start on Phone ou Start Streaming puis utilisez le bouton AI.

4️⃣ (Optionnel) Intégrer OpenClaw

OpenClaw apporte des actions agentielles telles que poster sur Slack, ajouter des événements de calendrier ou contrôler des lampes Philips Hue. 1. Installez et lancez le passerelle OpenClaw sur votre Mac. 2. Configurez l’hôte, le port et le token dans Secrets.swift ou Secrets.kt. 3. Dans les paramètres de l’application, activez la section OpenClaw. 4. Testez une tâche telle que « Add milk to my shopping list » – le passerelle l’exécute !


Snapshot d’architecture

Comment ça fonctionne

  1. Caméra / Micro – Capture des images vidéo (~1 fps) et un audio (PCM 16 kHz).
  2. Couche d’application – Envoie les images et le son via Gemini Live WebSocket (binaire).
  3. Gemini Live – Traite l’entrée multimodale ; renvoie audio parlé, texte et appels d’outils.
  4. OpenClaw (optionnel) – Reçoit les appels d’outils, exécute les actions via ses 56+ APIs de compétences, renvoie les résultats.
  5. Pipeline audio – Diffuse le PCM 24 kHz de Gemini vers le haut-parleur de l’appareil.
  6. WebRTC – Streaming en direct de la vue des lunettes vers un navigateur.

Résolution de problèmes et astuces

Problème Solution
Gemini ne m’entend pas Vérifiez la permission du micro ; ajustez les paramètres d’activité vocale dans l’application.
Timeout de connexion OpenClaw Assurez‑vous que téléphone et Mac partagent le même Wi‑Fi ; confirmez que le passerelle tourne ; utilisez le bon nom d’hôte Bonjour.
Erreur 401 lors du sync Gradle Le token dans local.properties doit inclure la portée read:packages. Utilisez gh auth token ou créez un token GitHub manuellement.
Pas de lecture audio Vérifiez les permissions RECORD_AUDIO et PLAY_AUDIO ; sous Android 13+ accordez‑les manuellement via les paramètres.
La caméra ne démarre pas Vérifiez la permission CAMERA et la gestion du cycle de vie ; testez sur un appareil neuf.

Cas d’utilisation réels

  • Recherche sur le terrain — Un scientifique portant des lunettes Ray‑Ban peut demander des informations sur des spécimens lors d’une randonnée et recevoir une description annotée sans sortir son téléphone.
  • Assistants de vente — Le personnel sur le terrain peut ajouter des articles au panier ou vérifier les stocks en mains‑libres.
  • Assistance à distance — Les ingénieurs peuvent diffuser leur vue à un expert distant tandis que l’IA gère les commandes vocales.
  • Accessibilité — Les personnes malvoyantes peuvent obtenir des descriptions de scène en temps réel accompagnées de suggestions d’action.

Réflexions finales

VisionClaw est une démonstration pratique de la façon dont les grands modèles de langage multimodaux peuvent être intégrés dans des dispositifs portables du quotidien. Il combine des IA de pointe avec un appel d’outils open‑source fiable, le tout dans un seul dépôt GitHub doté d’une documentation claire. Si vous construisez la prochaine génération d’assistants mains‑libres, VisionClaw constitue une base solide pour démarrer et un tremplin vers des projets encore plus ambitieux.

Prochaine étape : fork le dépôt, expérimentez avec des invites Gemini personnalisées, ajoutez de nouvelles compétences à OpenClaw, ou intégrez votre propre SDK portable. Bon hacking!

Original Article: Voir l’original

Partager cet article