oMLX: Servidor LLM en la barra de menús de Mac con caché SSD
oMLX: Revoluciona la IA local en tu Mac con control desde la barra de menús
Los LLMs locales en Apple Silicon acaban de recibir una gran mejora. oMLX es un servidor de inferencia de código abierto que combina funciones de grado de producción con una integración súper simple en Mac. Olvídate de malabares en la terminal: gestiona tus LLMs directamente desde la barra de menús.
Por qué oMLX destaca
Construido sobre el framework MLX de Apple, oMLX ofrece:
- Caché KV escalonado: Nivel caliente en RAM + nivel frío en SSD con compartición de prefijos y Copy-on-Write
- Batching continuo: Maneja solicitudes concurrentes como vLLM
- Servicio multi-modelo: LLMs, VLMs, embeddings y rerankers en un solo servidor
- App nativa de macOS: Estadísticas en la barra de menús, reinicio automático, actualizaciones en la app
- Panel de administración: Monitoreo en tiempo real, descargador de modelos, benchmarks, configuraciones por modelo
Funciones letales para desarrolladores
# Fija tus modelos diarios, intercambia automáticamente los pesados
Pin: Qwen3-Coder-8bit, Step-3.5-Flash
Auto-load: gpt-oss-120b on demand
# Caché SSD sobrevive reinicios
/hot-cache: 20GB RAM
/cold-cache: ~/.omlx/cache (SSD)
Listo para código Claude: Escalado de contexto + SSE keep-alive previene timeouts durante compilaciones largas.
Súper poderes de visión: Qwen3.5-VL, GLM-4V, Pixtral con llamadas a herramientas multi-imagen y detección automática de OCR.
Configuración súper simple
# Homebrew (recomendado)
brew tap jundot/omlx
git clone https://github.com/jundot/omlx
pip install -e .
# Lanza y olvida
brew services start omlx
O descarga el DMG desde Releases – tres clics hasta los primeros tokens.
Drop-in de la API de OpenAI
POST http://localhost:8000/v1/chat/completions
curl -X POST http://localhost:8000/v1/embeddings
Estadísticas completas de uso en streaming, API de Mensajes de Anthropic, llamadas a herramientas e inputs de visión (base64/URL).
Listo para producción
- Ejecución de memoria: Límite total de RAM previene OOM
- LRU + Manual + TTL: Evicción sofisticada de modelos
- Admin offline: Todos los assets CDN vendidos
- Logging estructurado: Logs de servicio + aplicación
Los benchmarks hablan más alto
Ejecuta desde el panel de admin: Tokens de prefill/seg, tokens de generación/seg, tasas de acierto de caché. Números del mundo real, no relleno sintético.
Comienza hoy
⭐ 2.4k estrellas en GitHub y creciendo. Licenciado bajo Apache 2.0.
omlx serve --model-dir ~/models --max-model-memory 32GB
La memoria unificada de tu Mac + oMLX = IA local que rivaliza con servicios en la nube. Instala ahora y experimenta el futuro de la inferencia en dispositivo.