llmfit : l'outil ultime d'adaptation LLM pour votre matériel

llmfit : l'outil ultime d'adaptation LLM pour votre matériel

L’adoption des grands modèles de langage (LLM) a explosé, mais choisir le bon modèle pour votre machine reste encore un jeu de devinettes. Avez‑vous besoin d’un modèle Whisper 30 B pour un portable de 16 GB RAM ? Devriez‑vous forcer un modèle MoE sur une station de travail à GPU unique ? Traditionnellement, vous lisez des papiers, téléchargez des exécutables massifs, lancez des benchmarks rapides et vous retrouvez toujours avec une surcharge ou une sous‑utilisation du matériel.

Entrez llmfit – un utilitaire terminal écrit en Rust qui évalue automatiquement 157 modèles provenant de 30 fournisseurs sur quatre dimensions (qualité, vitesse, adéquation, contexte) et vous indique exactement lequel fonctionnera sur votre système. Fini les calculettes de mémoire GPU ou les choix de quantification incertains.


Ce que llmfit peut faire

Fonctionnalité Description
Détection matérielle Lit la RAM, le nombre de cœurs CPU, et détecte automatiquement les GPU Nvidia/AMD/Intel/Apple.
Retourne le backend (CUDA, Metal, ROCm, SYCL) et la VRAM.
Quantification dynamique Parcourt une hiérarchie de Q8₀ à Q2℺, sélectionnant la quantification de meilleure qualité qui s’adapte. Reprend à moitié le contexte si rien ne convient entièrement.
Mixture‑of‑Experts (MoE) Détecte les modèles MoE (Mixtral, DeepSeek, etc.) et calcule l’utilisation active de mémoire des experts, permettant un off‑loading efficace.
Scoring & ranking Calcule des scores composites pondérés par cas d’usage (Chat, Coding, Reasoning). Affiche les modèles les mieux notés dans un tableau triable.
Multi‑GPU & CPU‑plus‑GPU Prend en charge les configurations multi‑GPU, la débordement CPU+GPU et les exécutions pur CPU si aucune carte GPU n’est disponible.
Intégration Ollama Liste automatiquement les modèles Ollama installés, les met en évidence, et vous permet d’en tirer de nouveaux d’un simple clic. Fonctionne immédiatement si ollama serve tourne.
TUI interactive & CLI Lancez avec llmfit pour une interface ncurses‑style ou utilisez --cli pour le tableau classique, fit, search, info, etc.
Sortie JSON Ajoutez --json à n’importe quelle commande pour obtenir des données lisibles par machine, idéales pour agents ou scripts.
Compétence OpenClaw Livrée avec une compétence OpenClaw qui recommande et configure les modèles Ollama directement dans le openclaw.json de votre agent.

Démarrage rapide

Trois façons identiques de commencer :

  1. Homebrew (macOS/Linux)
    brew tap AlexsJones/llmfit
    brew install llmfit
    
  2. Cargo (pour les utilisateurs Rust)
    cargo install llmfit
    
  3. Script curl (tout shell Unix)
    curl -fsSL https://llmfit.axjns.dev/install.sh | sh
    

Si vous êtes sous Windows, le script installera toujours un binaire dans %USERPROFILE%/.local/bin. Ajustez simplement votre PATH en conséquence.

Astuce Pro : Après l’installation, testez le TUI avec llmfit. Si vous voyez un ✓ vert sous Ollama, cela signifie que votre serveur local est détecté et que vous pouvez commencer à prélever des modèles immédiatement.

Utilisation de l'outil

TUI interactive

Lancer llmfit débouche sur une interface propre qui affiche :

  • Spécifications système : cœurs CPU, RAM, nom du GPU, VRAM, backend.
  • Tableau des modèles : colonnes score, tok/s, quant, mode, mémoire, cas d’usage.
  • Raccourcis clavier : naviguez avec les flèches ou j/k, cherchez avec /, filtrez l’adéquation avec f, basculez les fournisseurs avec p, tirez un modèle avec d, actualisez la liste installée avec r, et quittez avec q.

CLI classique

Si vous préférez du texte brut, utilisez --cli :

# Modèles classés en tête
llmfit --cli

# Modèles parfaitement adaptés uniquement
llmfit fit --perfect -n 5

# JSON lisible par l’homme
llmfit recommend --json --limit 5 --use-case coding

Le drapeau --json est pratique lorsque vous voulez canaliser les résultats vers un autre outil ou les stocker dans un fichier de configuration.

Dans les coulisses

Le cœur de llmfit réside dans un fichier unique hf_models.json fourni à chaque version (< 2 MB). Il contient les métadonnées de chaque modèle : nombre de paramètres, fenêtre de contexte, fournisseur, indicateurs MoE, etc. Le code Rust utilise ces données embarquées pour :

  1. Détecter le matérielsysinfo lit la RAM et le CPU, tandis que des requêtes dédiées (nvidia‑smi, rocm‑smi, system_profiler) extraient VRAM et backend.
  2. Énumérer les modèles – itère sur la base de données, calcule l’utilisation mémoire par niveau de quantification, et applique les contraintes de l’utilisateur.
  3. Évaluer – Quatre dimensions normalisées (qualité, vitesse, adéquation, contexte) sont combinées avec des poids spécifiques à chaque cas d’usage.
  4. Rendretui_app.rs gère la vue interactive, tui_ui.rs dessine la mise en page avec ratatui, et display.rs formate les tables classiques.

Le résultat est un utilitaire CLI rapide (< 1 s) qui semble instantané.

Pourquoi llmfit compte-t-il

  • Aucun setup – Pas besoin de calculer manuellement la VRAM ou de lancer des benchmarks lourds.
  • À jour – Le scraper scripts/scrape_hf_models.py extrait HuggingFace ; lancez make update-models pour rafraîchir la base de données.
  • Portable – Fonctionne sur macOS, Linux, Windows, ARM et Intel. Supporte Metal, CUDA, ROCm, SYCL et les backends CPU.
  • Intègre – Que vous utilisiez Ollama, vLLM ou LM Studio, llmfit peut cartographier les noms de modèles et vous dire ce qui roulera.
  • Communautaire – Licence MIT, écrit en Rust, maintenu activement, et bien documenté.

Cas d’usage

Scénario Fonctionnalité recommandée
Portable personnel llmfit + --cli pour trouver le meilleur modèle de petite taille qui rentre dans 8–16 GB RAM.
Petit serveur Activez le support multi‑GPU, tirez des modèles MoE, et visualisez le débordement CPU+GPU.
Agent OpenClaw Utilisez la compétence fournie pour que les agents auto‑configurent les modèles Ollama en fonction de la sortie de llmfit recommend.
Laboratoire de recherche Exécutez make update-models chaque nuit pour garder la base de données fraîche, puis intégrez llmfit recommend dans des workflows CI.

Bénéficier

Le projet accueille les contributions :

  1. Ajouter un nouveau modèle – Mettez à jour TARGET_MODELS dans scripts/scrape_hf_models.py.
  2. Améliorer l’évaluation – Ouvrez une issue pour ajuster les poids par cas d’usage.
  3. Demandes de fonctionnalités – Demandez la prise en charge d’un nouveau fournisseur ou backend.
  4. Rapports de bugs – Si l’outil estime mal la mémoire, faites‑le savoir !

Après les modifications, exécutez make update-models et validez le fichier hf_models.json mis à jour.

Le verdict

llmfit transforme la tâche intimidante quel LLM fonctionne sur ma machine ? en une seule commande déterministe. Sa combinaison de balayage matériel précis, de quantification intelligente et d’une couverture exhaustive des modèles en fait un utilitaire indispensable pour développeurs, chercheurs et amateurs d’IA qui veulent le meilleur modèle pour leur matériel sans essais‑et‑erreurs manuels.

Essayez llmfit dès aujourd’hui et voyez vos LLM préférés s’afficher en quelques secondes. Parce que choisir le bon modèle ne devrait jamais être un jeu d’indices.

Original Article: Voir l’original

Partager cet article