RCLI: IA de voz en dispositivo para macOS – Sin nube, rápido
¿Qué es RCLI?
RCLI (RunAnywhere Command‑Line Interface) es un asistente de voz totalmente local y de código abierto para macOS. Incluye un motor de Speech‑to‑Text (STT), un modelo de lenguaje grande (LLM) y un motor de Text‑to‑Speech (TTS), todos ejecutándose en la GPU de Apple Silicon a través del motor de inferencia propietario MetalRT. El resultado es un Mac activado por voz que puede controlar aplicaciones, recuperar información de tus documentos locales y responder en tiempo real—todo sin enviar datos al cloud.
Puntos clave: - 38 acciones distintas de macOS (reproducir Spotify, ajustar volumen, capturar pantallas, abrir URLs, y más) accesibles por voz o texto. - RAG (Retrieval‑Augmented Generation) local que indexa PDFs, DOCX y archivos de texto plano con búsqueda híbrida vector + BM25 en ~4 ms. - Latencia end‑to‑end inferior a 200 ms desde el habla hasta escuchar la respuesta. - Sin dependencia de APIs externas; no se requieren claves API. - Interfaz de texto basada en terminal que te permite gestionar modelos, acciones y el motor MetalRT.
Instalación
RCLI está disponible a través de Homebrew o con un único script de instalación. Para la configuración más rápida, ejecuta:
curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash
O usa Homebrew:
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup # descarga ~1 GB de modelos locales en la primera ejecución
Si tu Mac ejecuta macOS 13+ con un chip Apple Silicon (se recomienda M3 o superior), el motor GPU MetalRT se usará automáticamente. En máquinas M1/M2, RCLI pasa a la implementación de inferencia rápida y de código abierto llama.cpp.
Comandos de inicio rápido
| Comando | Función |
|---|---|
rcli |
Inicia la TUI interactiva (puente‑para‑hablar o entrada de texto) |
rcli listen |
Modo de voz continuo (solo habla) |
rcli ask "open Safari" |
Comando de texto o voz de una sola ejecución |
rcli metalrt |
Gestión del motor GPU MetalRT |
rcli llamacpp |
Gestión del motor llamacpp |
En la TUI puedes presionar A para habilitar o deshabilitar acciones, M para ver modelos, R para importar documentos para RAG, y X para limpiar el contexto de conversación.
Funcionalidades en detalle
1. Canal de voz completo
- VAD – Detección de actividad de voz Silero.
- STT – Whisper Tiny/Small/Medium o Zipformer streaming.
- LLM – Variantes de Qwen3, LFM2 o Qwen3.5; todos cargados en MetalRT con Flash Attention.
- TTS – Voces Kokoro o motores TTS alternativos.
- Llamado de herramientas – Funciona con Qwen3 y LFM2 para llamadas de herramientas nativas de acciones macOS.
2. 38 acciones de macOS
RCLI mapea intenciones del LLM a AppleScript o comandos de shell. Categorías comunes: - Productividad – crear notas, recordatorios o ejecutar atajos. - Comunicación – enviar mensajes, iniciar llamadas FaceTime. - Medios – controlar Spotify, Apple Music, ajustar volumen. - Sistema – abrir/cerrar aplicaciones, bloquear pantalla, activar modo oscuro. - Web – buscar, abrir URLs o mapas.
3. RAG local
Indexa tus carpetas con rcli rag ingest ~/Documents. Las consultas sobre el índice se responden mediante un motor híbrido que permanece completamente en el dispositivo. Con ~4 ms de tiempo de respuesta sobre miles de fragmentos, puedes tener preguntas y respuestas basadas en documentos en tiempo real.
4. Benchmarks
- Rendimiento de decodificación de MetalRT: hasta 550 tokens/s, superando a llama.cpp y Apple MLX en M3 Max.
- Factor en tiempo real: STT de MetalRT es 714× más rápido que la velocidad real, y la cadena completa permanece por debajo de 200 ms.
Cómo contribuir
RCLI acepta pull requests. Contribuye por: - Añadir nuevas acciones de macOS o mejorar las existentes. - Añadir soporte para más modelos (LLM, STT, TTS). - Mejorar la TUI o agregar nueva documentación.
Consulta CONTRIBUTING.md para instrucciones de compilación.
¿Es gratuito?
El repositorio está bajo licencia MIT. El motor GPU MetalRT es propietario pero puede usarse libremente para proyectos personales o comerciales tras contactar al proveedor.
Resumen
RCLI ofrece una solución de voz totalmente local para macOS que elimina la necesidad de servicios cloud y claves API. Con una lista creciente de acciones ejecutadas localmente, RAG en tiempo real y el inferente MetalRT ultrarrápido, es un proyecto ideal para desarrolladores que buscan crear asistentes de voz centrados en la privacidad, o para usuarios avanzados que desean control instantáneo sobre su Mac.
Próximo paso: clona el repo, instala mediante Homebrew y experimenta con comandos de voz. Comparte tus acciones o indicaciones personalizadas en foros comunitarios y ayuda a impulsar el proyecto.