RCLI: IA de voz en dispositivo para macOS – Sin nube, rápido
RCLI convierte tu Mac en un asistente de voz totalmente local y explorador de documentos. Impulsado por el motor GPU MetalRT de Apple Silicon, ejecuta STT, LLM y TTS de última generación localmente—sin nube, sin claves API. Descubre cómo instalarlo con Homebrew, controlar 38 acciones de macOS, incrustar PDFs con RAG <4 ms y comparar MetalRT con llama.cpp. Ya seas desarrollador, usuario avanzado o entusiasta de la IA, RCLI trae la IA local más vanguardista a tu escritorio con un mínimo de configuración. Descubre por qué este repo es imprescindible para cualquiera que esté construyendo herramientas macOS impulsadas por voz.
¿Qué es RCLI?
RCLI (RunAnywhere Command‑Line Interface) es un asistente de voz totalmente local y de código abierto para macOS. Incluye un motor de Speech‑to‑Text (STT), un modelo de lenguaje grande (LLM) y un motor de Text‑to‑Speech (TTS), todos ejecutándose en la GPU de Apple Silicon a través del motor de inferencia propietario MetalRT. El resultado es un Mac activado por voz que puede controlar aplicaciones, recuperar información de tus documentos locales y responder en tiempo real—todo sin enviar datos al cloud.
Puntos clave:
- 38 acciones distintas de macOS (reproducir Spotify, ajustar volumen, capturar pantallas, abrir URLs, y más) accesibles por voz o texto.
- RAG (Retrieval‑Augmented Generation) local que indexa PDFs, DOCX y archivos de texto plano con búsqueda híbrida vector + BM25 en ~4 ms.
- Latencia end‑to‑end inferior a 200 ms desde el habla hasta escuchar la respuesta.
- Sin dependencia de APIs externas; no se requieren claves API.
- Interfaz de texto basada en terminal que te permite gestionar modelos, acciones y el motor MetalRT.
Instalación
RCLI está disponible a través de Homebrew o con un único script de instalación. Para la configuración más rápida, ejecuta:
curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash
O usa Homebrew:
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup # descarga ~1 GB de modelos locales en la primera ejecución
Si tu Mac ejecuta macOS 13+ con un chip Apple Silicon (se recomienda M3 o superior), el motor GPU MetalRT se usará automáticamente. En máquinas M1/M2, RCLI pasa a la implementación de inferencia rápida y de código abierto llama.cpp.
Comandos de inicio rápido
| Comando | Función |
|---|---|
rcli |
Inicia la TUI interactiva (puente‑para‑hablar o entrada de texto) |
rcli listen |
Modo de voz continuo (solo habla) |
rcli ask "open Safari" |
Comando de texto o voz de una sola ejecución |
rcli metalrt |
Gestión del motor GPU MetalRT |
rcli llamacpp |
Gestión del motor llamacpp |
En la TUI puedes presionar A para habilitar o deshabilitar acciones, M para ver modelos, R para importar documentos para RAG, y X para limpiar el contexto de conversación.
Funcionalidades en detalle
1. Canal de voz completo
- VAD – Detección de actividad de voz Silero.
- STT – Whisper Tiny/Small/Medium o Zipformer streaming.
- LLM – Variantes de Qwen3, LFM2 o Qwen3.5; todos cargados en MetalRT con Flash Attention.
- TTS – Voces Kokoro o motores TTS alternativos.
- Llamado de herramientas – Funciona con Qwen3 y LFM2 para llamadas de herramientas nativas de acciones macOS.
2. 38 acciones de macOS
RCLI mapea intenciones del LLM a AppleScript o comandos de shell. Categorías comunes:
- Productividad – crear notas, recordatorios o ejecutar atajos.
- Comunicación – enviar mensajes, iniciar llamadas FaceTime.
- Medios – controlar Spotify, Apple Music, ajustar volumen.
- Sistema – abrir/cerrar aplicaciones, bloquear pantalla, activar modo oscuro.
- Web – buscar, abrir URLs o mapas.
3. RAG local
Indexa tus carpetas con rcli rag ingest ~/Documents. Las consultas sobre el índice se responden mediante un motor híbrido que permanece completamente en el dispositivo. Con ~4 ms de tiempo de respuesta sobre miles de fragmentos, puedes tener preguntas y respuestas basadas en documentos en tiempo real.
4. Benchmarks
- Rendimiento de decodificación de MetalRT: hasta 550 tokens/s, superando a llama.cpp y Apple MLX en M3 Max.
- Factor en tiempo real: STT de MetalRT es 714× más rápido que la velocidad real, y la cadena completa permanece por debajo de 200 ms.
Cómo contribuir
RCLI acepta pull requests. Contribuye por:
- Añadir nuevas acciones de macOS o mejorar las existentes.
- Añadir soporte para más modelos (LLM, STT, TTS).
- Mejorar la TUI o agregar nueva documentación.
Consulta CONTRIBUTING.md para instrucciones de compilación.
¿Es gratuito?
El repositorio está bajo licencia MIT. El motor GPU MetalRT es propietario pero puede usarse libremente para proyectos personales o comerciales tras contactar al proveedor.
Resumen
RCLI ofrece una solución de voz totalmente local para macOS que elimina la necesidad de servicios cloud y claves API. Con una lista creciente de acciones ejecutadas localmente, RAG en tiempo real y el inferente MetalRT ultrarrápido, es un proyecto ideal para desarrolladores que buscan crear asistentes de voz centrados en la privacidad, o para usuarios avanzados que desean control instantáneo sobre su Mac.
Próximo paso: clona el repo, instala mediante Homebrew y experimenta con comandos de voz. Comparte tus acciones o indicaciones personalizadas en foros comunitarios y ayuda a impulsar el proyecto.