llmfit: La herramienta definitiva de ajuste de LLM para tu hardware

llmfit: La herramienta definitiva de ajuste de LLM para tu hardware

La adopción de modelos de lenguaje grande (LLM) ha explotado, pero elegir el modelo correcto para tu máquina sigue pareciendo una conjetura a ciegas. ¿Necesitas un modelo Whisper de 30 B para un portátil con 16 GB de RAM? ¿Deberías forzar un modelo MoE en un puesto de trabajo con una sola GPU? Tradicionalmente leerías artículos, descargarías binarios enormes, ejecutarías benchmarks rápidos y aún terminarías con hardware subo o sobreutilizado.

Conoce llmfit: una utilidad de terminal construida en Rust que evalúa automáticamente 157 modelos de 30 proveedores en cuatro dimensiones (calidad, velocidad, ajuste, contexto) y te indica exactamente cuál funcionará en tu sistema. Ya no tendrás que jugar con cálculos de memoria GPU o decisiones de cuantificación inciertas.


¿Qué puede hacer llmfit?

Función Descripción
Detección de hardware Lee RAM, núcleos de CPU, y detecta automáticamente GPUs Nvidia/AMD/Intel/Apple.
Devuelve backend (CUDA, Metal, ROCm, SYCL) y VRAM.
Cuantificación dinámica Recorre una jerarquía desde Q8₀ hasta Q2℺, eligiendo la cuantización de mayor calidad que quepa. Retrocede a la mitad del contexto si nada encaja por completo.
Mixture‑of‑Experts (MoE) Detecta modelos MoE (Mixtral, DeepSeek, etc.) y calcula el uso de memoria de los expertos activos, facilitando el off‑loading eficiente.
Puntuación y clasificación Calcula puntuaciones compuestas ponderadas por caso de uso (Chat, Codificación, Razonamiento). Muestra los modelos mejor valorados en una tabla ordenable.
Multi‑GPU y CPU+GPU Soporta configuraciones multi‑GPU, sobrecarga de CPU+GPU y ejecuciones puras de CPU si no hay GPUs.
Integración con Ollama Lista automáticamente los modelos Ollama instalados, los resalta, y te permite descargar nuevos con una sola pulsación. Funciona de inmediato si ollama serve está en funcionamiento.
TUI interactiva y CLI Lánzalo con llmfit para una interfaz estilo ncurses o usa --cli para la tabla clásica, fit, search, info, etc.
Salida JSON Añade --json a cualquier comando para datos legibles por máquina, ideal para agentes o scripts.
Habilidad OpenClaw Incluye una habilidad de OpenClaw que recomienda y configura modelos Ollama directamente dentro del openclaw.json de tu agente.

Inicio rápido

Tres formas idénticas para empezar:

  1. Homebrew (macOS/Linux)
    brew tap AlexsJones/llmfit
    brew install llmfit
    
  2. Cargo (para usuarios de Rust)
    cargo install llmfit
    
  3. Script curl (cualquier shell Unix)
    curl -fsSL https://llmfit.axjns.dev/install.sh | sh
    

Si estás en Windows, el script seguirá instalando un binario en %USERPROFILE%/.local/bin. Simplemente ajusta tu PATH en consecuencia.

Pro tip: Tras la instalación, prueba la TUI con llmfit. Si ves una ✓ verde bajo Ollama, significa que tu servidor local ha sido detectado y puedes comenzar a descargar modelos de inmediato.

Usar la herramienta

Interfaz TUI

Ejecutar llmfit lanza una interfaz limpia que muestra:

  • Especificaciones del sistema: núcleos de CPU, RAM, nombre de GPU, VRAM, backend.
  • Tabla de modelos: Columnas para score, tok/s, quant, mode, memory, use‑case.
  • Atajos de teclado: Navega con flechas o j/k, busca con /, filtra ajuste con f, alterna proveedores con p, descarga un modelo con d, actualiza lista instalada con r, y sal con q.

CLI clásico

Si prefieres texto plano, usa --cli:

# Modelos mejor clasificados
llmfit --cli

# Solo modelos de ajuste perfecto
llmfit fit --perfect -n 5

# JSON legible
llmfit recommend --json --limit 5 --use-case coding

La bandera --json es útil cuando quieres canalizar los resultados a otra herramienta o guardarlos en un archivo de configuración.

Detrás de escena

El núcleo de llmfit vive en un único archivo hf_models.json que se distribuye con cada lanzamiento (< 2 MB). Contiene metadatos de cada modelo: número de parámetros, ventana de contexto, proveedor, banderas MoE, etc. El código Rust usa estos datos incrustados para:

  1. Detectar hardwaresysinfo lee RAM y CPU, mientras que consultas dedicadas (nvidia-smi, rocm-smi, system_profiler) extraen VRAM y backend.
  2. Enumerar modelos – Itera sobre la base de datos, calcula el uso de memoria por nivel de cuantificación, y aplica restricciones del usuario.
  3. Puntuar – Cuatro dimensiones normalizadas (calidad, velocidad, ajuste, contexto) se combinan con pesos específicos de caso de uso.
  4. Renderizartui_app.rs gestiona la vista interactiva, tui_ui.rs dibuja el diseño con ratatui, y display.rs formatea tablas clásicas.

El resultado es una utilidad de línea de comandos rápida (< 1 s) que parece instantánea.

Por qué llmfit importa

  • Sin configuración – No es necesario calcular VRAM manualmente ni ejecutar benchmarks pesados.
  • Actualizado – El scraper scripts/scrape_hf_models.py extrae de HuggingFace; ejecuta make update-models para refrescar la base de datos.
  • Portátil – Funciona en macOS, Linux, Windows, ARM e Intel. Soporta Metal, CUDA, ROCm, SYCL y backends de CPU.
  • Integra – Ya sea que uses Ollama, vLLM o LM Studio, llmfit puede mapear nombres de modelos y decirte qué funcionará.
  • Amigable con la comunidad – Licenciado MIT, escrito en Rust, mantenido activamente y documentado.

Casos de uso

Escenario Función recomendada
Laptop personal llmfit + --cli para encontrar el modelo de pequeño tamaño que mejor se ajuste a 8–16 GB RAM.
Servidor pequeño Habilita soporte multi‑GPU, descarga modelos MoE y visualiza el desbordamiento CPU+GPU.
Agente OpenClaw Usa la habilidad provista para que los agentes auto-configuren modelos Ollama basados en la salida de llmfit recommend.
Laboratorio de investigación Ejecuta make update-models nocturnamente para mantener la base de datos fresca, luego programa llmfit recommend en flujos de CI.

Participar

El proyecto acepta contribuciones:

  1. Añadir un nuevo modelo – Actualiza TARGET_MODELS en scripts/scrape_hf_models.py.
  2. Mejorar puntuación – Abre un issue para ajustar los pesos de un caso de uso.
  3. Solicitudes de función – Pide soporte para un nuevo proveedor o backend.
  4. Reportes de errores – Si la herramienta estima mal la memoria, háznoslo saber.

Después de los cambios, ejecuta make update-models y compromete el hf_models.json actualizado.

La conclusión

llmfit convierte la tarea abrumadora de qué modelo de LLM funciona en mi máquina? en un solo comando determinista. Su combinación de sondeo de hardware preciso, cuantificación inteligente y cobertura exhaustiva de modelos lo convierte en una utilidad indispensable para desarrolladores, investigadores y aficionados de IA que desean el mejor modelo para su hardware sin el ensayo y error manual.

Prueba llmfit hoy y ve tus LLM favoritos en pantalla en solo unos segundos. Porque elegir el modelo adecuado nunca debe ser un juego de conjeturas.

Artículo original: Ver original

Compartir este artículo