ComfyUI‑GGUF: Ejecuta Modelos de Baja Resolución en Tu GPU

January 20, 2026

Categoría: Proyectos Prácticos de Código Abierto

Etiquetas:

Open Source AI Models ComfyUI GGUF Quantization

ComfyUI‑GGUF: Ejecuta Modelos de Baja Resolución en Tu GPU

La reciente explosión de formatos de modelo de baja resolución como GGUF ha hecho posible ejecutar grandes redes de difusión en máquinas con memoria VRAM limitada. ComfyUI‑GGUF es una extensión ligera y de código abierto que se integra directamente en el ecosistema de ComfyUI, permitiéndote cargar archivos GGUF cuantizados para UNet, Diffusion e incluso el codificador de texto T5. Esta guía revisa los conceptos, los pasos de instalación y el uso en el mundo real para que puedas comenzar a generar imágenes de alta calidad sin invertir en una GPU de gama alta.

Por Qué Importa GGUF

Tamaño y Velocidad: GGUF almacena los pesos de modelo en un formato comprimido y columnar que puede reducir el ancho de bits a 4‑bit o 3‑bit por peso sin perder calidad del modelo.
Descuantificación In Situ: La extensión deforma automáticamente los pesos en tiempo de ejecución, manteniendo baja el uso de memoria CPU/GPU. Es especialmente útil para arquitecturas transformer/DiT como Flux.
Multiplataforma: Ya sea que uses Windows, macOS o Linux, el repositorio incluye guías de instalación específicas de la plataforma.

Modelos Compatibles a Vista

Modelo	Cuantificación	Variante GGUF
Flux 1‑Dev	Q4_0	`flux1-dev.gguf`
Flux Schnell	Q4_0	`flux1-schnell.gguf`
Stable Diffusion 3.5‑Large	Q4_0	`stable-diffusion-3.5-large.gguf`
Stable Diffusion 3.5‑Large‑Turbo	Q4_0	`stable-diffusion-3.5-large-turbo.gguf`
T5‑v1.1‑XXL	Q4_0	`t5_v1.1-xxl.gguf`

Todos los modelos se colocan en la carpeta ComfyUI/models/unet (o en la carpeta CLIP para T5) para ser descubiertos por el nuevo GGUF Unet Loader.

1️⃣ Requisitos Previos de Instalación

ComfyUI – Asegúrate de estar utilizando una versión reciente (después de octubre 2024) que soporte operaciones personalizadas.
Python 3.9+ – La extensión depende del paquete gguf.
Git – Clona el repositorio localmente.

⚠️ Para macOS, usa torch 2.4.1. Las versiones nightly de Torch 2.6.* desencadenan un error “M1 buffer is not large enough”.

2️⃣ Clonar el Repositorio

# Desde la raíz de tu instalación de ComfyUI
git clone https://github.com/city96/ComfyUI-GGUF custom_nodes/ComfyUI-GGUF

Después de clonar, instala la única dependencia de inferencia:

pip install --upgrade gguf

Si usas una versión stand‑alone ComfyUI portable, ejecuta esos comandos dentro de la carpeta ComfyUI_windows_portable y apunta Python al intérprete embebido.

3️⃣ Reemplazar el Cargador Estándar

Abre el editor de flujos de trabajo de ComfyUI y reemplaza el nodo Load Diffusion Model con el nuevo nodo Unet Loader (GGUF). El nodo se encuentra bajo la categoría bootleg.

💡 El nodo escanea automáticamente la carpeta unet en busca de archivos .gguf; simplemente coloca el archivo cuantizado y listo.

4️⃣ Opcional: Cuantiza Tus Propios Modelos

Si posees un checkpoint sin cuantificar, puedes usar los scripts de la carpeta tools.

Coloca el .ckpt o .bin original en tools.
Ejecuta el script de cuantificación proporcionado (usa la CLI gguf bajo el capó). Ejemplo:

python tools/quantize.py --input sd3-large.ckpt --output sd3-large.gguf --bits 4

Esto generará un sd3-large.gguf que podrás colocar en tu carpeta unet.

5️⃣ Soporte Experimental de LoRA

Actualmente, el cargador LoRA es experimental pero ha mostrado integración exitosa cuando se usan los nodos LoRA integrados. Basta con cargar tu .ckpt de LoRA junto al UNet GGUF; ComfyUI los fusionará en tiempo de ejecución.

6️⃣ Tips Específicos por Plataforma

Windows: Ejecuta CMD dentro de ComfyUI_windows_portable, luego ejecuta pip install -r requirements.txt.
macOS (Sequoia): Usa torch==2.4.1 para evitar desbordamientos de buffer.
Linux: pip install estándar funciona; asegúrate de tener un toolkit CUDA reciente si planeas usar aceleración GPU.

🚀 Ejecutando Inferencia de Baja Resolución

Después de configurar, lanza ComfyUI y usa un flujo de trabajo simple:

Añade Unet Loader (GGUF).
Añade un nodo T5 Loader (GGUF) si necesitas un codificador de texto cuantizado.
Inserta los nodos estándar Text Prompt y Sampler.
Haz clic en Generate.

Notarás que el uso de memoria GPU cae de ~10 GB (precisión completa) a ~4 GB o menos, dependiendo del ancho de bits.

📌 Conclusiones

ComfyUI‑GGUF trae la inferencia de baja resolución a la vanguardia de las herramientas creativas de IA.
Es una solución limpia y de código abierto que reduce los costes de VRAM sin comprometer la fidelidad visual.
Con unos cuantos comandos git clone y pip install, puedes comenzar a ejecutar Flux 1‑Dev o Stable Diffusion 3.5 en una NVIDIA RTX 4060 o incluso en una GPU integrada.
Experimenta con niveles de cuantificación – la biblioteca soporta Q4_0, Q4_1 y variantes Q3_0.

¡Feliz generación, y que el sueño de baja resolución se haga realidad en tu escritorio!

Artículo original: Ver original

Compartir este artículo