oMLX : Serveur LLM Barre de Menu Mac avec Cache SSD
Découvrez oMLX, le serveur LLM local ultime pour Macs Apple Silicon. Exécutez LLM, VLM et embeddings depuis votre barre de menu avec batching continu, cache KV à niveaux (RAM + SSD) et serving multi-modèles. Fonctionnalités : tableau de bord admin, compatibilité OpenAI API, optimisation Claude Code et téléchargements de modèles Hugging Face en un clic. Installez via DMG, Homebrew ou source – parfait pour les développeurs voulant une IA locale de niveau production sans coûts cloud.
oMLX : Révolutionnez l'IA locale sur votre Mac avec un contrôle depuis la barre de menu
Les LLM locaux sur Apple Silicon viennent de recevoir une mise à niveau majeure. oMLX est un serveur d'inférence open-source qui combine des fonctionnalités de niveau production avec une intégration Mac ultra-simple. Oubliez la gestion en terminal – gérez vos LLM directement depuis votre barre de menu.
Pourquoi oMLX se distingue
Construit sur le framework MLX d'Apple, oMLX offre :
- Cache KV à niveaux : Niveau RAM chaud + niveau SSD froid avec partage de préfixe et Copy-on-Write
- Batching continu : Gérez les requêtes concurrentes comme vLLM
- Serving multi-modèles : LLM, VLM, embeddings et rerankers dans un seul serveur
- Application native macOS : Stats en barre de menu, redémarrage auto, mises à jour in-app
- Tableau de bord admin : Surveillance en temps réel, téléchargeur de modèles, benchmarks, paramètres par modèle
Fonctionnalités phares pour les développeurs
# Épinglez vos modèles quotidiens, échangez automatiquement les lourds
Pin: Qwen3-Coder-8bit, Step-3.5-Flash
Auto-load: gpt-oss-120b à la demande
# Cache SSD survit aux redémarrages
/hot-cache: 20GB RAM
/cold-cache: ~/.omlx/cache (SSD)
Prêt pour Claude Code : Échelle de contexte + SSE keep-alive empêche les timeouts pendant les longues compilations.
Superpouvoirs Vision : Qwen3.5-VL, GLM-4V, Pixtral avec appel d'outils multi-images et détection OCR automatique.
Installation ultra-simple
# Homebrew (recommandé)
brew tap jundot/omlx
git clone https://github.com/jundot/omlx
pip install -e .
# Lancez et oubliez
brew services start omlx
Ou téléchargez le DMG depuis Releases – trois clics pour les premiers tokens.
Remplacement OpenAI API
POST http://localhost:8000/v1/chat/completions
curl -X POST http://localhost:8000/v1/embeddings
Stats d'utilisation en streaming complet, API Messages Anthropic, appel d'outils et entrées vision (base64/URL).
Prêt pour la production
- Contrôle mémoire : Limite totale RAM empêche les OOM
- LRU + Manuel + TTL : Éviction de modèles sophistiquée
- Admin hors ligne : Tous les assets CDN intégrés
- Logging structuré : Logs service + application
Les benchmarks parlent d'eux-mêmes
Lancez depuis le panneau admin : Tokens/sec préfill, tokens/sec génération, taux de hit cache. Des chiffres réels, pas du fluff synthétique.
Commencez aujourd'hui
⭐ 2.4k étoiles GitHub et en croissance. Licencié Apache 2.0.
omlx serve --model-dir ~/models --max-model-memory 32GB
Mémoire unifiée de votre Mac + oMLX = IA locale qui rivalise avec les services cloud. Installez maintenant et vivez l'avenir de l'inférence sur appareil.