ComfyUI‑GGUF: Ejecuta Modelos de Baja Resolución en Tu GPU
ComfyUI‑GGUF: Ejecuta Modelos de Baja Resolución en Tu GPU
La reciente explosión de formatos de modelo de baja resolución como GGUF ha hecho posible ejecutar grandes redes de difusión en máquinas con memoria VRAM limitada. ComfyUI‑GGUF es una extensión ligera y de código abierto que se integra directamente en el ecosistema de ComfyUI, permitiéndote cargar archivos GGUF cuantizados para UNet, Diffusion e incluso el codificador de texto T5. Esta guía revisa los conceptos, los pasos de instalación y el uso en el mundo real para que puedas comenzar a generar imágenes de alta calidad sin invertir en una GPU de gama alta.
Por Qué Importa GGUF
- Tamaño y Velocidad: GGUF almacena los pesos de modelo en un formato comprimido y columnar que puede reducir el ancho de bits a 4‑bit o 3‑bit por peso sin perder calidad del modelo.
- Descuantificación In Situ: La extensión deforma automáticamente los pesos en tiempo de ejecución, manteniendo baja el uso de memoria CPU/GPU. Es especialmente útil para arquitecturas transformer/DiT como Flux.
- Multiplataforma: Ya sea que uses Windows, macOS o Linux, el repositorio incluye guías de instalación específicas de la plataforma.
Modelos Compatibles a Vista
| Modelo | Cuantificación | Variante GGUF |
|---|---|---|
| Flux 1‑Dev | Q4_0 | flux1-dev.gguf |
| Flux Schnell | Q4_0 | flux1-schnell.gguf |
| Stable Diffusion 3.5‑Large | Q4_0 | stable-diffusion-3.5-large.gguf |
| Stable Diffusion 3.5‑Large‑Turbo | Q4_0 | stable-diffusion-3.5-large-turbo.gguf |
| T5‑v1.1‑XXL | Q4_0 | t5_v1.1-xxl.gguf |
Todos los modelos se colocan en la carpeta ComfyUI/models/unet (o en la carpeta CLIP para T5) para ser descubiertos por el nuevo GGUF Unet Loader.
1️⃣ Requisitos Previos de Instalación
- ComfyUI – Asegúrate de estar utilizando una versión reciente (después de octubre 2024) que soporte operaciones personalizadas.
- Python 3.9+ – La extensión depende del paquete
gguf. - Git – Clona el repositorio localmente.
⚠️ Para macOS, usa torch 2.4.1. Las versiones nightly de Torch 2.6.* desencadenan un error “M1 buffer is not large enough”.
2️⃣ Clonar el Repositorio
# Desde la raíz de tu instalación de ComfyUI
git clone https://github.com/city96/ComfyUI-GGUF custom_nodes/ComfyUI-GGUF
Después de clonar, instala la única dependencia de inferencia:
pip install --upgrade gguf
Si usas una versión stand‑alone ComfyUI portable, ejecuta esos comandos dentro de la carpeta ComfyUI_windows_portable y apunta Python al intérprete embebido.
3️⃣ Reemplazar el Cargador Estándar
Abre el editor de flujos de trabajo de ComfyUI y reemplaza el nodo Load Diffusion Model con el nuevo nodo Unet Loader (GGUF). El nodo se encuentra bajo la categoría bootleg.
💡 El nodo escanea automáticamente la carpeta unet en busca de archivos
.gguf; simplemente coloca el archivo cuantizado y listo.
4️⃣ Opcional: Cuantiza Tus Propios Modelos
Si posees un checkpoint sin cuantificar, puedes usar los scripts de la carpeta tools.
- Coloca el
.ckpto.binoriginal entools. - Ejecuta el script de cuantificación proporcionado (usa la CLI
ggufbajo el capó). Ejemplo:
python tools/quantize.py --input sd3-large.ckpt --output sd3-large.gguf --bits 4
Esto generará un sd3-large.gguf que podrás colocar en tu carpeta unet.
5️⃣ Soporte Experimental de LoRA
Actualmente, el cargador LoRA es experimental pero ha mostrado integración exitosa cuando se usan los nodos LoRA integrados. Basta con cargar tu .ckpt de LoRA junto al UNet GGUF; ComfyUI los fusionará en tiempo de ejecución.
6️⃣ Tips Específicos por Plataforma
- Windows: Ejecuta CMD dentro de ComfyUI_windows_portable, luego ejecuta
pip install -r requirements.txt. - macOS (Sequoia): Usa
torch==2.4.1para evitar desbordamientos de buffer. - Linux:
pip installestándar funciona; asegúrate de tener un toolkit CUDA reciente si planeas usar aceleración GPU.
🚀 Ejecutando Inferencia de Baja Resolución
Después de configurar, lanza ComfyUI y usa un flujo de trabajo simple:
- Añade Unet Loader (GGUF).
- Añade un nodo T5 Loader (GGUF) si necesitas un codificador de texto cuantizado.
- Inserta los nodos estándar Text Prompt y Sampler.
- Haz clic en Generate.
Notarás que el uso de memoria GPU cae de ~10 GB (precisión completa) a ~4 GB o menos, dependiendo del ancho de bits.
📌 Conclusiones
- ComfyUI‑GGUF trae la inferencia de baja resolución a la vanguardia de las herramientas creativas de IA.
- Es una solución limpia y de código abierto que reduce los costes de VRAM sin comprometer la fidelidad visual.
- Con unos cuantos comandos
git cloneypip install, puedes comenzar a ejecutar Flux 1‑Dev o Stable Diffusion 3.5 en una NVIDIA RTX 4060 o incluso en una GPU integrada. - Experimenta con niveles de cuantificación – la biblioteca soporta Q4_0, Q4_1 y variantes Q3_0.
¡Feliz generación, y que el sueño de baja resolución se haga realidad en tu escritorio!