oMLX : Serveur LLM Barre de Menu Mac avec Cache SSD

March 10, 2026

Catégorie: Projets Open Source Pratiques

Étiquettes:

Apple Silicon MLX oMLX LLM Server Mac AI

Les LLM locaux sur Apple Silicon viennent de recevoir une mise à niveau majeure. oMLX est un serveur d'inférence open-source qui combine des fonctionnalités de niveau production avec une intégration Mac ultra-simple. Oubliez la gestion en terminal – gérez vos LLM directement depuis votre barre de menu.

Pourquoi oMLX se distingue

Construit sur le framework MLX d'Apple, oMLX offre :

Cache KV à niveaux : Niveau RAM chaud + niveau SSD froid avec partage de préfixe et Copy-on-Write
Batching continu : Gérez les requêtes concurrentes comme vLLM
Serving multi-modèles : LLM, VLM, embeddings et rerankers dans un seul serveur
Application native macOS : Stats en barre de menu, redémarrage auto, mises à jour in-app
Tableau de bord admin : Surveillance en temps réel, téléchargeur de modèles, benchmarks, paramètres par modèle

Fonctionnalités phares pour les développeurs

# Épinglez vos modèles quotidiens, échangez automatiquement les lourds
Pin: Qwen3-Coder-8bit, Step-3.5-Flash
Auto-load: gpt-oss-120b à la demande

# Cache SSD survit aux redémarrages
/hot-cache: 20GB RAM
/cold-cache: ~/.omlx/cache (SSD)

Prêt pour Claude Code : Échelle de contexte + SSE keep-alive empêche les timeouts pendant les longues compilations.

Superpouvoirs Vision : Qwen3.5-VL, GLM-4V, Pixtral avec appel d'outils multi-images et détection OCR automatique.

Installation ultra-simple

# Homebrew (recommandé)
brew tap jundot/omlx
git clone https://github.com/jundot/omlx
pip install -e .

# Lancez et oubliez
brew services start omlx

Ou téléchargez le DMG depuis Releases – trois clics pour les premiers tokens.

Remplacement OpenAI API

POST http://localhost:8000/v1/chat/completions
curl -X POST http://localhost:8000/v1/embeddings

Stats d'utilisation en streaming complet, API Messages Anthropic, appel d'outils et entrées vision (base64/URL).

Prêt pour la production

Contrôle mémoire : Limite totale RAM empêche les OOM
LRU + Manuel + TTL : Éviction de modèles sophistiquée
Admin hors ligne : Tous les assets CDN intégrés
Logging structuré : Logs service + application

Les benchmarks parlent d'eux-mêmes

Lancez depuis le panneau admin : Tokens/sec préfill, tokens/sec génération, taux de hit cache. Des chiffres réels, pas du fluff synthétique.

Commencez aujourd'hui

⭐ 2.4k étoiles GitHub et en croissance. Licencié Apache 2.0.

omlx serve --model-dir ~/models --max-model-memory 32GB

Mémoire unifiée de votre Mac + oMLX = IA locale qui rivalise avec les services cloud. Installez maintenant et vivez l'avenir de l'inférence sur appareil.

Article original: Voir l'original