oMLX : Serveur LLM Barre de Menu Mac avec Cache SSD
oMLX : Révolutionnez l'IA locale sur votre Mac avec un contrôle depuis la barre de menu
Les LLM locaux sur Apple Silicon viennent de recevoir une mise à niveau majeure. oMLX est un serveur d'inférence open-source qui combine des fonctionnalités de niveau production avec une intégration Mac ultra-simple. Oubliez la gestion en terminal – gérez vos LLM directement depuis votre barre de menu.
Pourquoi oMLX se distingue
Construit sur le framework MLX d'Apple, oMLX offre :
- Cache KV à niveaux : Niveau RAM chaud + niveau SSD froid avec partage de préfixe et Copy-on-Write
- Batching continu : Gérez les requêtes concurrentes comme vLLM
- Serving multi-modèles : LLM, VLM, embeddings et rerankers dans un seul serveur
- Application native macOS : Stats en barre de menu, redémarrage auto, mises à jour in-app
- Tableau de bord admin : Surveillance en temps réel, téléchargeur de modèles, benchmarks, paramètres par modèle
Fonctionnalités phares pour les développeurs
# Épinglez vos modèles quotidiens, échangez automatiquement les lourds
Pin: Qwen3-Coder-8bit, Step-3.5-Flash
Auto-load: gpt-oss-120b à la demande
# Cache SSD survit aux redémarrages
/hot-cache: 20GB RAM
/cold-cache: ~/.omlx/cache (SSD)
Prêt pour Claude Code : Échelle de contexte + SSE keep-alive empêche les timeouts pendant les longues compilations.
Superpouvoirs Vision : Qwen3.5-VL, GLM-4V, Pixtral avec appel d'outils multi-images et détection OCR automatique.
Installation ultra-simple
# Homebrew (recommandé)
brew tap jundot/omlx
git clone https://github.com/jundot/omlx
pip install -e .
# Lancez et oubliez
brew services start omlx
Ou téléchargez le DMG depuis Releases – trois clics pour les premiers tokens.
Remplacement OpenAI API
POST http://localhost:8000/v1/chat/completions
curl -X POST http://localhost:8000/v1/embeddings
Stats d'utilisation en streaming complet, API Messages Anthropic, appel d'outils et entrées vision (base64/URL).
Prêt pour la production
- Contrôle mémoire : Limite totale RAM empêche les OOM
- LRU + Manuel + TTL : Éviction de modèles sophistiquée
- Admin hors ligne : Tous les assets CDN intégrés
- Logging structuré : Logs service + application
Les benchmarks parlent d'eux-mêmes
Lancez depuis le panneau admin : Tokens/sec préfill, tokens/sec génération, taux de hit cache. Des chiffres réels, pas du fluff synthétique.
Commencez aujourd'hui
⭐ 2.4k étoiles GitHub et en croissance. Licencié Apache 2.0.
omlx serve --model-dir ~/models --max-model-memory 32GB
Mémoire unifiée de votre Mac + oMLX = IA locale qui rivalise avec les services cloud. Installez maintenant et vivez l'avenir de l'inférence sur appareil.