llmfit: La herramienta definitiva de ajuste de LLM para tu hardware

February 20, 2026

Categoría: Proyectos Prácticos de Código Abierto

Etiquetas:

Open Source LLM cli llmfit hardware optimization

llmfit: La herramienta definitiva de ajuste de LLM para tu hardware

La adopción de modelos de lenguaje grande (LLM) ha explotado, pero elegir el modelo correcto para tu máquina sigue pareciendo una conjetura a ciegas. ¿Necesitas un modelo Whisper de 30 B para un portátil con 16 GB de RAM? ¿Deberías forzar un modelo MoE en un puesto de trabajo con una sola GPU? Tradicionalmente leerías artículos, descargarías binarios enormes, ejecutarías benchmarks rápidos y aún terminarías con hardware subo o sobreutilizado.

Conoce llmfit: una utilidad de terminal construida en Rust que evalúa automáticamente 157 modelos de 30 proveedores en cuatro dimensiones (calidad, velocidad, ajuste, contexto) y te indica exactamente cuál funcionará en tu sistema. Ya no tendrás que jugar con cálculos de memoria GPU o decisiones de cuantificación inciertas.

¿Qué puede hacer llmfit?

Función	Descripción
Detección de hardware	Lee RAM, núcleos de CPU, y detecta automáticamente GPUs Nvidia/AMD/Intel/Apple. Devuelve backend (CUDA, Metal, ROCm, SYCL) y VRAM.
Cuantificación dinámica	Recorre una jerarquía desde Q8₀ hasta Q2℺, eligiendo la cuantización de mayor calidad que quepa. Retrocede a la mitad del contexto si nada encaja por completo.
Mixture‑of‑Experts (MoE)	Detecta modelos MoE (Mixtral, DeepSeek, etc.) y calcula el uso de memoria de los expertos activos, facilitando el off‑loading eficiente.
Puntuación y clasificación	Calcula puntuaciones compuestas ponderadas por caso de uso (Chat, Codificación, Razonamiento). Muestra los modelos mejor valorados en una tabla ordenable.
Multi‑GPU y CPU+GPU	Soporta configuraciones multi‑GPU, sobrecarga de CPU+GPU y ejecuciones puras de CPU si no hay GPUs.
Integración con Ollama	Lista automáticamente los modelos Ollama instalados, los resalta, y te permite descargar nuevos con una sola pulsación. Funciona de inmediato si ollama serve está en funcionamiento.
TUI interactiva y CLI	Lánzalo con `llmfit` para una interfaz estilo ncurses o usa `--cli` para la tabla clásica, `fit`, `search`, `info`, etc.
Salida JSON	Añade `--json` a cualquier comando para datos legibles por máquina, ideal para agentes o scripts.
Habilidad OpenClaw	Incluye una habilidad de OpenClaw que recomienda y configura modelos Ollama directamente dentro del `openclaw.json` de tu agente.

Inicio rápido

Tres formas idénticas para empezar:

Homebrew (macOS/Linux)

brew tap AlexsJones/llmfit
brew install llmfit

Cargo (para usuarios de Rust)
```
cargo install llmfit
```

Script curl (cualquier shell Unix)

curl -fsSL https://llmfit.axjns.dev/install.sh | sh

Si estás en Windows, el script seguirá instalando un binario en %USERPROFILE%/.local/bin. Simplemente ajusta tu PATH en consecuencia.

Pro tip: Tras la instalación, prueba la TUI con llmfit. Si ves una ✓ verde bajo Ollama, significa que tu servidor local ha sido detectado y puedes comenzar a descargar modelos de inmediato.

Usar la herramienta

Interfaz TUI

Ejecutar llmfit lanza una interfaz limpia que muestra:

Especificaciones del sistema: núcleos de CPU, RAM, nombre de GPU, VRAM, backend.
Tabla de modelos: Columnas para score, tok/s, quant, mode, memory, use‑case.
Atajos de teclado: Navega con flechas o j/k, busca con /, filtra ajuste con f, alterna proveedores con p, descarga un modelo con d, actualiza lista instalada con r, y sal con q.

CLI clásico

Si prefieres texto plano, usa --cli:

# Modelos mejor clasificados
llmfit --cli

# Solo modelos de ajuste perfecto
llmfit fit --perfect -n 5

# JSON legible
llmfit recommend --json --limit 5 --use-case coding

La bandera --json es útil cuando quieres canalizar los resultados a otra herramienta o guardarlos en un archivo de configuración.

Detrás de escena

El núcleo de llmfit vive en un único archivo hf_models.json que se distribuye con cada lanzamiento (< 2 MB). Contiene metadatos de cada modelo: número de parámetros, ventana de contexto, proveedor, banderas MoE, etc. El código Rust usa estos datos incrustados para:

Detectar hardware – sysinfo lee RAM y CPU, mientras que consultas dedicadas (nvidia-smi, rocm-smi, system_profiler) extraen VRAM y backend.
Enumerar modelos – Itera sobre la base de datos, calcula el uso de memoria por nivel de cuantificación, y aplica restricciones del usuario.
Puntuar – Cuatro dimensiones normalizadas (calidad, velocidad, ajuste, contexto) se combinan con pesos específicos de caso de uso.
Renderizar – tui_app.rs gestiona la vista interactiva, tui_ui.rs dibuja el diseño con ratatui, y display.rs formatea tablas clásicas.

El resultado es una utilidad de línea de comandos rápida (< 1 s) que parece instantánea.

Por qué llmfit importa

Sin configuración – No es necesario calcular VRAM manualmente ni ejecutar benchmarks pesados.
Actualizado – El scraper scripts/scrape_hf_models.py extrae de HuggingFace; ejecuta make update-models para refrescar la base de datos.
Portátil – Funciona en macOS, Linux, Windows, ARM e Intel. Soporta Metal, CUDA, ROCm, SYCL y backends de CPU.
Integra – Ya sea que uses Ollama, vLLM o LM Studio, llmfit puede mapear nombres de modelos y decirte qué funcionará.
Amigable con la comunidad – Licenciado MIT, escrito en Rust, mantenido activamente y documentado.

Casos de uso

Escenario	Función recomendada
Laptop personal	`llmfit` + `--cli` para encontrar el modelo de pequeño tamaño que mejor se ajuste a 8–16 GB RAM.
Servidor pequeño	Habilita soporte multi‑GPU, descarga modelos MoE y visualiza el desbordamiento CPU+GPU.
Agente OpenClaw	Usa la habilidad provista para que los agentes auto-configuren modelos Ollama basados en la salida de `llmfit recommend`.
Laboratorio de investigación	Ejecuta `make update-models` nocturnamente para mantener la base de datos fresca, luego programa `llmfit recommend` en flujos de CI.

Participar

El proyecto acepta contribuciones:

Añadir un nuevo modelo – Actualiza TARGET_MODELS en scripts/scrape_hf_models.py.
Mejorar puntuación – Abre un issue para ajustar los pesos de un caso de uso.
Solicitudes de función – Pide soporte para un nuevo proveedor o backend.
Reportes de errores – Si la herramienta estima mal la memoria, háznoslo saber.

Después de los cambios, ejecuta make update-models y compromete el hf_models.json actualizado.

La conclusión

llmfit convierte la tarea abrumadora de qué modelo de LLM funciona en mi máquina? en un solo comando determinista. Su combinación de sondeo de hardware preciso, cuantificación inteligente y cobertura exhaustiva de modelos lo convierte en una utilidad indispensable para desarrolladores, investigadores y aficionados de IA que desean el mejor modelo para su hardware sin el ensayo y error manual.

Prueba llmfit hoy y ve tus LLM favoritos en pantalla en solo unos segundos. Porque elegir el modelo adecuado nunca debe ser un juego de conjeturas.

Artículo original: Ver original

Compartir este artículo