oMLX: Servidor LLM en la barra de menús de Mac con caché SSD

oMLX: Revoluciona la IA local en tu Mac con control desde la barra de menús

Los LLMs locales en Apple Silicon acaban de recibir una gran mejora. oMLX es un servidor de inferencia de código abierto que combina funciones de grado de producción con una integración súper simple en Mac. Olvídate de malabares en la terminal: gestiona tus LLMs directamente desde la barra de menús.

Por qué oMLX destaca

Construido sobre el framework MLX de Apple, oMLX ofrece:

  • Caché KV escalonado: Nivel caliente en RAM + nivel frío en SSD con compartición de prefijos y Copy-on-Write
  • Batching continuo: Maneja solicitudes concurrentes como vLLM
  • Servicio multi-modelo: LLMs, VLMs, embeddings y rerankers en un solo servidor
  • App nativa de macOS: Estadísticas en la barra de menús, reinicio automático, actualizaciones en la app
  • Panel de administración: Monitoreo en tiempo real, descargador de modelos, benchmarks, configuraciones por modelo

Funciones letales para desarrolladores

# Fija tus modelos diarios, intercambia automáticamente los pesados
Pin: Qwen3-Coder-8bit, Step-3.5-Flash
Auto-load: gpt-oss-120b on demand

# Caché SSD sobrevive reinicios
/hot-cache: 20GB RAM
/cold-cache: ~/.omlx/cache (SSD)

Listo para código Claude: Escalado de contexto + SSE keep-alive previene timeouts durante compilaciones largas.

Súper poderes de visión: Qwen3.5-VL, GLM-4V, Pixtral con llamadas a herramientas multi-imagen y detección automática de OCR.

Configuración súper simple

# Homebrew (recomendado)
brew tap jundot/omlx
git clone https://github.com/jundot/omlx
pip install -e .

# Lanza y olvida
brew services start omlx

O descarga el DMG desde Releases – tres clics hasta los primeros tokens.

Drop-in de la API de OpenAI

POST http://localhost:8000/v1/chat/completions
curl -X POST http://localhost:8000/v1/embeddings

Estadísticas completas de uso en streaming, API de Mensajes de Anthropic, llamadas a herramientas e inputs de visión (base64/URL).

Listo para producción

  • Ejecución de memoria: Límite total de RAM previene OOM
  • LRU + Manual + TTL: Evicción sofisticada de modelos
  • Admin offline: Todos los assets CDN vendidos
  • Logging estructurado: Logs de servicio + aplicación

Los benchmarks hablan más alto

Ejecuta desde el panel de admin: Tokens de prefill/seg, tokens de generación/seg, tasas de acierto de caché. Números del mundo real, no relleno sintético.

Comienza hoy

2.4k estrellas en GitHub y creciendo. Licenciado bajo Apache 2.0.

omlx serve --model-dir ~/models --max-model-memory 32GB

La memoria unificada de tu Mac + oMLX = IA local que rivaliza con servicios en la nube. Instala ahora y experimenta el futuro de la inferencia en dispositivo.

Artículo original: Ver original

Compartir este artículo