RCLI: IA de voz en dispositivo para macOS – Sin nube, rápido

¿Qué es RCLI?

RCLI (RunAnywhere Command‑Line Interface) es un asistente de voz totalmente local y de código abierto para macOS. Incluye un motor de Speech‑to‑Text (STT), un modelo de lenguaje grande (LLM) y un motor de Text‑to‑Speech (TTS), todos ejecutándose en la GPU de Apple Silicon a través del motor de inferencia propietario MetalRT. El resultado es un Mac activado por voz que puede controlar aplicaciones, recuperar información de tus documentos locales y responder en tiempo real—todo sin enviar datos al cloud.

Puntos clave: - 38 acciones distintas de macOS (reproducir Spotify, ajustar volumen, capturar pantallas, abrir URLs, y más) accesibles por voz o texto. - RAG (Retrieval‑Augmented Generation) local que indexa PDFs, DOCX y archivos de texto plano con búsqueda híbrida vector + BM25 en ~4 ms. - Latencia end‑to‑end inferior a 200 ms desde el habla hasta escuchar la respuesta. - Sin dependencia de APIs externas; no se requieren claves API. - Interfaz de texto basada en terminal que te permite gestionar modelos, acciones y el motor MetalRT.

Instalación

RCLI está disponible a través de Homebrew o con un único script de instalación. Para la configuración más rápida, ejecuta:

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

O usa Homebrew:

brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup   # descarga ~1 GB de modelos locales en la primera ejecución

Si tu Mac ejecuta macOS 13+ con un chip Apple Silicon (se recomienda M3 o superior), el motor GPU MetalRT se usará automáticamente. En máquinas M1/M2, RCLI pasa a la implementación de inferencia rápida y de código abierto llama.cpp.

Comandos de inicio rápido

Comando Función
rcli Inicia la TUI interactiva (puente‑para‑hablar o entrada de texto)
rcli listen Modo de voz continuo (solo habla)
rcli ask "open Safari" Comando de texto o voz de una sola ejecución
rcli metalrt Gestión del motor GPU MetalRT
rcli llamacpp Gestión del motor llamacpp

En la TUI puedes presionar A para habilitar o deshabilitar acciones, M para ver modelos, R para importar documentos para RAG, y X para limpiar el contexto de conversación.

Funcionalidades en detalle

1. Canal de voz completo

  • VAD – Detección de actividad de voz Silero.
  • STT – Whisper Tiny/Small/Medium o Zipformer streaming.
  • LLM – Variantes de Qwen3, LFM2 o Qwen3.5; todos cargados en MetalRT con Flash Attention.
  • TTS – Voces Kokoro o motores TTS alternativos.
  • Llamado de herramientas – Funciona con Qwen3 y LFM2 para llamadas de herramientas nativas de acciones macOS.

2. 38 acciones de macOS

RCLI mapea intenciones del LLM a AppleScript o comandos de shell. Categorías comunes: - Productividad – crear notas, recordatorios o ejecutar atajos. - Comunicación – enviar mensajes, iniciar llamadas FaceTime. - Medios – controlar Spotify, Apple Music, ajustar volumen. - Sistema – abrir/cerrar aplicaciones, bloquear pantalla, activar modo oscuro. - Web – buscar, abrir URLs o mapas.

3. RAG local

Indexa tus carpetas con rcli rag ingest ~/Documents. Las consultas sobre el índice se responden mediante un motor híbrido que permanece completamente en el dispositivo. Con ~4 ms de tiempo de respuesta sobre miles de fragmentos, puedes tener preguntas y respuestas basadas en documentos en tiempo real.

4. Benchmarks

  • Rendimiento de decodificación de MetalRT: hasta 550 tokens/s, superando a llama.cpp y Apple MLX en M3 Max.
  • Factor en tiempo real: STT de MetalRT es 714× más rápido que la velocidad real, y la cadena completa permanece por debajo de 200 ms.

Cómo contribuir

RCLI acepta pull requests. Contribuye por: - Añadir nuevas acciones de macOS o mejorar las existentes. - Añadir soporte para más modelos (LLM, STT, TTS). - Mejorar la TUI o agregar nueva documentación.

Consulta CONTRIBUTING.md para instrucciones de compilación.

¿Es gratuito?

El repositorio está bajo licencia MIT. El motor GPU MetalRT es propietario pero puede usarse libremente para proyectos personales o comerciales tras contactar al proveedor.

Resumen

RCLI ofrece una solución de voz totalmente local para macOS que elimina la necesidad de servicios cloud y claves API. Con una lista creciente de acciones ejecutadas localmente, RAG en tiempo real y el inferente MetalRT ultrarrápido, es un proyecto ideal para desarrolladores que buscan crear asistentes de voz centrados en la privacidad, o para usuarios avanzados que desean control instantáneo sobre su Mac.

Próximo paso: clona el repo, instala mediante Homebrew y experimenta con comandos de voz. Comparte tus acciones o indicaciones personalizadas en foros comunitarios y ayuda a impulsar el proyecto.

Artículo original: Ver original

Compartir este artículo