VisionClaw: Asistente de IA Gemini en Tiempo Real para Gafas Inteligentes

VisionClaw – Asistente de IA en Tiempo Real para las Gafas Inteligentes Meta Ray‑Ban

El proyecto VisionClaw demuestra cómo convertir las gafas Meta Ray‑Ban (o cualquier cámara de teléfono) en un asistente manos libres, de voz y visión. Alimentado por la API Gemini Live de Google para conversación multimodal y, opcionalmente, el gateway OpenClaw para llamado de herramientas tipo agente, la aplicación permite a los usuarios:

  • Preguntar ’¿Qué estoy viendo?’ y obtener una descripción hablada de la escena.
  • Añadir artículos de compra, crear recordatorios o enviar mensajes instantáneos vía WhatsApp, Telegram e iMessage.
  • Buscar en la web, controlar dispositivos domésticos inteligentes o gestionar notas sin tocar una pantalla.
  • Transmitir en vivo la vista de las gafas a un navegador para visualización remota o colaboración.

¿Por qué VisionClaw? VisionClaw no es solo un fragmento de código; es un flujo de trabajo funcional de extremo a extremo que combina desarrollo iOS/Android con servicios de IA del mundo real. Sirve como plantilla para desarrolladores que quieran crear aplicaciones AR que fusionen percepción visual, interacción en lenguaje natural y automatización.


Visión General del Proyecto

Característica iOS (Swift) Android (Java/Kotlin)
Voz + visión en tiempo real
Gemini Live WebSocket
Llamado de herramientas OpenClaw Opcional Opcional
Pruebas en modo teléfono
Transmisión WebRTC
Dependencias SDK Meta DAT SDK, OpenClaw Meta DAT SDK, OpenClaw

La estructura del repositorio: - samples/ – Proyectos de acceso a cámara separados para iOS y Android. - assets/ – Capturas de pantalla, diagrama de arquitectura, imagen teaser. - README.md – Documentación completa, inicio rápido, notas de arquitectura. - CHANGELOG.md – Historial de versiones. - LICENSE – Licencia MIT.


Inicio Rápido

1️⃣ Clonar el repositorio

git clone https://github.com/sseanliu/VisionClaw.git

2️⃣ Configuración iOS

  1. Abrir samples/CameraAccess/CameraAccess.xcodeproj en Xcode 15+.
  2. Copiar el archivo de secretos de ejemplo: cp CameraAccess/Secrets.swift.example CameraAccess/Secrets.swift.
  3. Editar Secrets.swift – insertar tu clave de API Gemini y, si lo deseas, la configuración de OpenClaw.
  4. Elegir un objetivo iPhone y pulsar Run (⌘R).
  5. En la app, seleccionar Start on iPhone (modo cámara) o Start Streaming (modo gafas). Luego pulsa el botón de IA para conversar.

3️⃣ Configuración Android

  1. Abrir samples/CameraAccessAndroid en Android Studio.
  2. Configurar GitHub Packages: añadir un github_token con alcance read:packages a local.properties.
  3. Copiar el ejemplo de secretos: cp secrets.kt.example secrets.kt y rellenar tu clave Gemini.
  4. Sincronizar Gradle y ejecutar en un dispositivo (Shift+F10).
  5. Pulsar Start on Phone o Start Streaming y usar el botón de IA.

4️⃣ (Opcional) Integrar OpenClaw

OpenClaw permite acciones de tipo agente como publicar en Slack, añadir eventos a calendarios o controlar luces Philips Hue. 1. Instalar y ejecutar el gateway OpenClaw en tu Mac. 2. Configurar el host, puerto y token en Secrets.swift o Secrets.kt. 3. En la configuración de la app, habilitar la sección OpenClaw. 4. Probar una tarea como “Añadir leche a mi lista de compras” – ¡el gateway la ejecuta!


Instantánea de la Arquitectura

Cómo funciona

  1. Cámara / Micrófono – Captura fotogramas (~1 fps) y audio (PCM 16 kHz).
  2. Capa de la App – Envía fotogramas y audio vía Gemini Live WebSocket (binario).
  3. Gemini Live – Procesa la entrada multimodal; devuelve audio hablado, texto y llamadas a herramientas.
  4. OpenClaw (opcional) – Recibe llamadas a herramientas, ejecuta acciones a través de sus más de 56 APIs de habilidades, devuelve resultados.
  5. Tubería de Audio – Transmite el PCM 24 kHz de Gemini de regreso al altavoz del dispositivo.
  6. WebRTC – Transmisión en vivo opcional de la vista de las gafas a un navegador.

Solución de Problemas y Consejos

Problema Solución
Gemini no me oye Verificar permiso del micrófono; ajustar la configuración de detección de voz en la app.
Timeout de conexión OpenClaw Asegurarse de que el teléfono y el Mac compartan la misma Wi‑Fi; confirmar que el gateway esté activo; usar el nombre de host Bonjour correcto.
Error 401 al sync de Gradle El token en local.properties debe incluir el alcance read:packages. Usar gh auth token o token manual de GitHub.
Sin reproducción de audio Comprobar permisos RECORD_AUDIO y PLAY_AUDIO; en Android 13+ otorgar manualmente desde Ajustes.
Cámara no inicia Verificar permiso de CAMERA y correcta gestión del ciclo de vida; probar en un dispositivo limpio.

Casos de Uso en el Mundo Real

  • Investigación de campo – Un científico que porta gafas Ray‑Ban puede preguntar acerca de especímenes durante una excursión y recibir una descripción anotada sin sacar el teléfono.
  • Asistentes de comercio – Personal de tienda puede añadir artículos al carro o comprobar información de stock de forma manos libres.
  • Asistencia remota – Ingenieros pueden transmitir su vista a un experto remoto mientras la IA gestiona comandos de voz.
  • Accesibilidad – Usuarios con discapacidad visual pueden obtener descripciones de la escena en tiempo real combinadas con indicaciones de acción.

Reflexiones Finales

VisionClaw es una muestra práctica de cómo los modelos de lenguaje multimodal de gran escala pueden incorporarse en dispositivos wearables cotidianos. Combina la última tecnología de IA con la llamada a herramientas de código abierto confiable, todo en un único repositorio de GitHub con documentación clara. Si estás construyendo la próxima generación de asistentes manos libres, VisionClaw es una base sólida para comenzar y un trampolín hacia proyectos aún más ambiciosos.

Próximos pasos: Forkea el repositorio, experimenta con prompts personalizados de Gemini, añade nuevas habilidades a OpenClaw o integra tu propio SDK de wearable. ¡Feliz hacking!

Artículo original: Ver original

Compartir este artículo