oMLX: Servidor LLM en la barra de menús de Mac con caché SSD

March 10, 2026

Categoría: Proyectos Prácticos de Código Abierto

Etiquetas:

Apple Silicon MLX oMLX LLM Server Mac AI

oMLX: Revoluciona la IA local en tu Mac con control desde la barra de menús

Los LLMs locales en Apple Silicon acaban de recibir una gran mejora. oMLX es un servidor de inferencia de código abierto que combina funciones de grado de producción con una integración súper simple en Mac. Olvídate de malabares en la terminal: gestiona tus LLMs directamente desde la barra de menús.

Por qué oMLX destaca

Construido sobre el framework MLX de Apple, oMLX ofrece:

Caché KV escalonado: Nivel caliente en RAM + nivel frío en SSD con compartición de prefijos y Copy-on-Write
Batching continuo: Maneja solicitudes concurrentes como vLLM
Servicio multi-modelo: LLMs, VLMs, embeddings y rerankers en un solo servidor
App nativa de macOS: Estadísticas en la barra de menús, reinicio automático, actualizaciones en la app
Panel de administración: Monitoreo en tiempo real, descargador de modelos, benchmarks, configuraciones por modelo

Funciones letales para desarrolladores

# Fija tus modelos diarios, intercambia automáticamente los pesados
Pin: Qwen3-Coder-8bit, Step-3.5-Flash
Auto-load: gpt-oss-120b on demand

# Caché SSD sobrevive reinicios
/hot-cache: 20GB RAM
/cold-cache: ~/.omlx/cache (SSD)

Listo para código Claude: Escalado de contexto + SSE keep-alive previene timeouts durante compilaciones largas.

Súper poderes de visión: Qwen3.5-VL, GLM-4V, Pixtral con llamadas a herramientas multi-imagen y detección automática de OCR.

Configuración súper simple

# Homebrew (recomendado)
brew tap jundot/omlx
git clone https://github.com/jundot/omlx
pip install -e .

# Lanza y olvida
brew services start omlx

O descarga el DMG desde Releases – tres clics hasta los primeros tokens.

Drop-in de la API de OpenAI

POST http://localhost:8000/v1/chat/completions
curl -X POST http://localhost:8000/v1/embeddings

Estadísticas completas de uso en streaming, API de Mensajes de Anthropic, llamadas a herramientas e inputs de visión (base64/URL).

Listo para producción

Ejecución de memoria: Límite total de RAM previene OOM
LRU + Manual + TTL: Evicción sofisticada de modelos
Admin offline: Todos los assets CDN vendidos
Logging estructurado: Logs de servicio + aplicación

Los benchmarks hablan más alto

Ejecuta desde el panel de admin: Tokens de prefill/seg, tokens de generación/seg, tasas de acierto de caché. Números del mundo real, no relleno sintético.

Comienza hoy

⭐ 2.4k estrellas en GitHub y creciendo. Licenciado bajo Apache 2.0.

omlx serve --model-dir ~/models --max-model-memory 32GB

La memoria unificada de tu Mac + oMLX = IA local que rivaliza con servicios en la nube. Instala ahora y experimenta el futuro de la inferencia en dispositivo.

Artículo original: Ver original

Compartir este artículo