llmfit : l'outil ultime d'adaptation LLM pour votre matériel
llmfit : l'outil ultime d'adaptation LLM pour votre matériel
L’adoption des grands modèles de langage (LLM) a explosé, mais choisir le bon modèle pour votre machine reste encore un jeu de devinettes. Avez‑vous besoin d’un modèle Whisper 30 B pour un portable de 16 GB RAM ? Devriez‑vous forcer un modèle MoE sur une station de travail à GPU unique ? Traditionnellement, vous lisez des papiers, téléchargez des exécutables massifs, lancez des benchmarks rapides et vous retrouvez toujours avec une surcharge ou une sous‑utilisation du matériel.
Entrez llmfit – un utilitaire terminal écrit en Rust qui évalue automatiquement 157 modèles provenant de 30 fournisseurs sur quatre dimensions (qualité, vitesse, adéquation, contexte) et vous indique exactement lequel fonctionnera sur votre système. Fini les calculettes de mémoire GPU ou les choix de quantification incertains.
Ce que llmfit peut faire
| Fonctionnalité | Description |
|---|---|
| Détection matérielle | Lit la RAM, le nombre de cœurs CPU, et détecte automatiquement les GPU Nvidia/AMD/Intel/Apple. Retourne le backend (CUDA, Metal, ROCm, SYCL) et la VRAM. |
| Quantification dynamique | Parcourt une hiérarchie de Q8₀ à Q2℺, sélectionnant la quantification de meilleure qualité qui s’adapte. Reprend à moitié le contexte si rien ne convient entièrement. |
| Mixture‑of‑Experts (MoE) | Détecte les modèles MoE (Mixtral, DeepSeek, etc.) et calcule l’utilisation active de mémoire des experts, permettant un off‑loading efficace. |
| Scoring & ranking | Calcule des scores composites pondérés par cas d’usage (Chat, Coding, Reasoning). Affiche les modèles les mieux notés dans un tableau triable. |
| Multi‑GPU & CPU‑plus‑GPU | Prend en charge les configurations multi‑GPU, la débordement CPU+GPU et les exécutions pur CPU si aucune carte GPU n’est disponible. |
| Intégration Ollama | Liste automatiquement les modèles Ollama installés, les met en évidence, et vous permet d’en tirer de nouveaux d’un simple clic. Fonctionne immédiatement si ollama serve tourne. |
| TUI interactive & CLI | Lancez avec llmfit pour une interface ncurses‑style ou utilisez --cli pour le tableau classique, fit, search, info, etc. |
| Sortie JSON | Ajoutez --json à n’importe quelle commande pour obtenir des données lisibles par machine, idéales pour agents ou scripts. |
| Compétence OpenClaw | Livrée avec une compétence OpenClaw qui recommande et configure les modèles Ollama directement dans le openclaw.json de votre agent. |
Démarrage rapide
Trois façons identiques de commencer :
- Homebrew (macOS/Linux)
brew tap AlexsJones/llmfit brew install llmfit - Cargo (pour les utilisateurs Rust)
cargo install llmfit - Script curl (tout shell Unix)
curl -fsSL https://llmfit.axjns.dev/install.sh | sh
Si vous êtes sous Windows, le script installera toujours un binaire dans %USERPROFILE%/.local/bin. Ajustez simplement votre PATH en conséquence.
Astuce Pro : Après l’installation, testez le TUI avec
llmfit. Si vous voyez un ✓ vert sous Ollama, cela signifie que votre serveur local est détecté et que vous pouvez commencer à prélever des modèles immédiatement.
Utilisation de l'outil
TUI interactive
Lancer llmfit débouche sur une interface propre qui affiche :
- Spécifications système : cœurs CPU, RAM, nom du GPU, VRAM, backend.
- Tableau des modèles : colonnes score, tok/s, quant, mode, mémoire, cas d’usage.
- Raccourcis clavier : naviguez avec les flèches ou
j/k, cherchez avec/, filtrez l’adéquation avecf, basculez les fournisseurs avecp, tirez un modèle avecd, actualisez la liste installée avecr, et quittez avecq.
CLI classique
Si vous préférez du texte brut, utilisez --cli :
# Modèles classés en tête
llmfit --cli
# Modèles parfaitement adaptés uniquement
llmfit fit --perfect -n 5
# JSON lisible par l’homme
llmfit recommend --json --limit 5 --use-case coding
Le drapeau --json est pratique lorsque vous voulez canaliser les résultats vers un autre outil ou les stocker dans un fichier de configuration.
Dans les coulisses
Le cœur de llmfit réside dans un fichier unique hf_models.json fourni à chaque version (< 2 MB). Il contient les métadonnées de chaque modèle : nombre de paramètres, fenêtre de contexte, fournisseur, indicateurs MoE, etc. Le code Rust utilise ces données embarquées pour :
- Détecter le matériel –
sysinfolit la RAM et le CPU, tandis que des requêtes dédiées (nvidia‑smi, rocm‑smi, system_profiler) extraient VRAM et backend. - Énumérer les modèles – itère sur la base de données, calcule l’utilisation mémoire par niveau de quantification, et applique les contraintes de l’utilisateur.
- Évaluer – Quatre dimensions normalisées (qualité, vitesse, adéquation, contexte) sont combinées avec des poids spécifiques à chaque cas d’usage.
- Rendre –
tui_app.rsgère la vue interactive,tui_ui.rsdessine la mise en page avecratatui, etdisplay.rsformate les tables classiques.
Le résultat est un utilitaire CLI rapide (< 1 s) qui semble instantané.
Pourquoi llmfit compte-t-il
- Aucun setup – Pas besoin de calculer manuellement la VRAM ou de lancer des benchmarks lourds.
- À jour – Le scraper
scripts/scrape_hf_models.pyextrait HuggingFace ; lancezmake update-modelspour rafraîchir la base de données. - Portable – Fonctionne sur macOS, Linux, Windows, ARM et Intel. Supporte Metal, CUDA, ROCm, SYCL et les backends CPU.
- Intègre – Que vous utilisiez Ollama, vLLM ou LM Studio, llmfit peut cartographier les noms de modèles et vous dire ce qui roulera.
- Communautaire – Licence MIT, écrit en Rust, maintenu activement, et bien documenté.
Cas d’usage
| Scénario | Fonctionnalité recommandée |
|---|---|
| Portable personnel | llmfit + --cli pour trouver le meilleur modèle de petite taille qui rentre dans 8–16 GB RAM. |
| Petit serveur | Activez le support multi‑GPU, tirez des modèles MoE, et visualisez le débordement CPU+GPU. |
| Agent OpenClaw | Utilisez la compétence fournie pour que les agents auto‑configurent les modèles Ollama en fonction de la sortie de llmfit recommend. |
| Laboratoire de recherche | Exécutez make update-models chaque nuit pour garder la base de données fraîche, puis intégrez llmfit recommend dans des workflows CI. |
Bénéficier
Le projet accueille les contributions :
- Ajouter un nouveau modèle – Mettez à jour
TARGET_MODELSdansscripts/scrape_hf_models.py. - Améliorer l’évaluation – Ouvrez une issue pour ajuster les poids par cas d’usage.
- Demandes de fonctionnalités – Demandez la prise en charge d’un nouveau fournisseur ou backend.
- Rapports de bugs – Si l’outil estime mal la mémoire, faites‑le savoir !
Après les modifications, exécutez make update-models et validez le fichier hf_models.json mis à jour.
Le verdict
llmfit transforme la tâche intimidante quel LLM fonctionne sur ma machine ? en une seule commande déterministe. Sa combinaison de balayage matériel précis, de quantification intelligente et d’une couverture exhaustive des modèles en fait un utilitaire indispensable pour développeurs, chercheurs et amateurs d’IA qui veulent le meilleur modèle pour leur matériel sans essais‑et‑erreurs manuels.
Essayez llmfit dès aujourd’hui et voyez vos LLM préférés s’afficher en quelques secondes. Parce que choisir le bon modèle ne devrait jamais être un jeu d’indices.