ComfyUI‑GGUF : Exécuter des modèles à faible nombre de bits sur votre GPU

January 20, 2026

Catégorie: Projets Open Source Pratiques

Étiquettes:

Open Source AI Models ComfyUI GGUF Quantization

ComfyUI‑GGUF : Exécuter des modèles à faible nombre de bits sur votre GPU

La récente montée en popularité des formats de modèles à faible nombre de bits tels que GGUF a rendu possible l'exécution de grands réseaux de diffusion sur des machines disposant d'une VRAM limitée. ComfyUI‑GGUF est une extension légère et open-source qui s'intègre directement dans l'écosystème ComfyUI, vous permettant de charger des fichiers GGUF quantifiés pour UNet, Diffusion, et même le encodeur de texte T5. Ce guide passe en revue les concepts, les étapes d'installation et l'utilisation concrète afin que vous puissiez commencer à générer des images de haute qualité sans investir dans un GPU haut de gamme.

Pourquoi GGUF est important

Taille et Vitesse : GGUF stocke les poids de modèle dans un format compressé et arithmétique colonne qui peut réduire la largeur de bits à 4‑bit ou 3‑bit par poids tout en maintenant la qualité du modèle.
Déquantification en Temps Réel : L'extension déquantifie automatiquement les poids à l'exécution, gardant l'utilisation de la mémoire CPU/GPU faible. Cela est particulièrement utile pour les architectures transformer/DiT comme Flux.
Multi-Plateforme : Que vous soyez sous Windows, macOS ou Linux, le dépôt inclut des guides d'installation spécifiques à chaque plateforme.

Modèles pris en charge d'un coup d'œil

Modèle	Quantification	Variante GGUF
Flux 1‑Dev	Q4_0	`flux1-dev.gguf`
Flux Schnell	Q4_0	`flux1-schnell.gguf`
Stable Diffusion 3.5‑Large	Q4_0	`stable-diffusion-3.5-large.gguf`
Stable Diffusion 3.5‑Large‑Turbo	Q4_0	`stable-diffusion-3.5-large-turbo.gguf`
T5‑v1.1‑XXL	Q4_0	`t5_v1.1-xxl.gguf`

Tous les modèles sont placés dans le dossier ComfyUI/models/unet (ou le dossier CLIP pour T5) afin d'être découverts par le nouveau Chargeur Unet GGUF.

1️⃣ Prérequis d'Installation

ComfyUI – Assurez-vous de disposer d'une version récente de ComfyUI (post‑octobre 2024) qui prend en charge les opérations personnalisées.
Python 3.9+ – L'extension dépend du paquet gguf.
Git – Clonez le dépôt localement.

⚠️ Sous macOS, utilisez torch 2.4.1. Les versions nightly de Torch 2.6.* déclenchent une erreur « M1 buffer is not large enough ».

2️⃣ Cloner le dépôt

# Depuis votre répertoire d'installation ComfyUI
 git clone https://github.com/city96/ComfyUI-GGUF custom_nodes/ComfyUI-GGUF

Après le clonage, installez la seule dépendance d'inférence :

pip install --upgrade gguf

Si vous utilisez une version stand‑alone portable de ComfyUI, exécutez ces commandes dans le dossier ComfyUI_windows_portable et faites pointer Python vers l'interpréteur embarqué.

3️⃣ Remplacer le chargeur standard

Ouvrez votre éditeur de flux de travail ComfyUI et remplacez le nœud standard Load Diffusion Model par le nouveau nœud Unet Loader (GGUF). Le nœud se trouve dans la catégorie bootleg.

💡 Le nœud effectue automatiquement une recherche dans le dossier unet pour les fichiers .gguf; il suffit de déposer l'archive quantifiée et vous êtes prêt.

4️⃣ Facultatif : Quantiser vos propres modèles

Si vous possédez un point de contrôle non quantifié, vous pouvez utiliser les scripts du dossier tools.

Placez le fichier original .ckpt ou .bin dans tools.
Exécutez le script de quantisation fourni (il utilise la CLI gguf en arrière-plan). Exemple :

python tools/quantize.py --input sd3-large.ckpt --output sd3-large.gguf --bits 4

Cela produira un fichier sd3-large.gguf que vous pourrez placer dans votre dossier unet.

5️⃣ Support expérimental LoRA

Actuellement, le chargeur LoRA est expérimental mais a montré une intégration réussie lorsqu'il est utilisé avec les nœuds LoRA intégrés. Chargez simplement votre fichier .ckpt LoRA aux côtés du UNet GGUF ; ComfyUI les fusionnera à l'exécution.

6️⃣ Conseils spécifiques à la plateforme

Windows : Lancez une invite de commandes dans ComfyUI_windows_portable, puis exécutez la commande pip install -r requirements.txt.
macOS (Sequoia) : Utilisez torch==2.4.1 pour éviter les dépassements de tampon.
Linux : pip install standard fonctionne ; assurez-vous d'avoir un kit d'outils CUDA récent si vous envisagez d'utiliser l'accélération GPU.

🚀 Exécution de l'inférence à faible nombre de bits

Après configuration, lancez ComfyUI et utilisez un flux de travail simple :

Ajoutez Unet Loader (GGUF).
Ajoutez un nœud T5 Loader (GGUF) si vous avez besoin d'un encodeur de texte quantifié.
Insérez les nœuds standard Text Prompt et Sampler.
Cliquez sur Generate.

Vous remarquerez une baisse de l'utilisation de la mémoire GPU, passant d'environ 10 GB (précision complète) à 4 GB ou moins, selon la largeur de bits.

📌 Points clés

ComfyUI‑GGUF apporte l'inférence à faible nombre de bits au premier plan des outils créatifs d'IA.
C'est une solution propre et open-source qui réduit les coûts de VRAM sans compromettre la fidélité visuelle.
Avec quelques commandes git clone et un pip install, vous pouvez commencer à exécuter Flux 1‑Dev ou Stable Diffusion 3.5 sur une NVIDIA RTX 4060 ou même sur un GPU intégré.
Expérimentez avec les niveaux de quantification — la bibliothèque prend en charge les variantes Q4_0, Q4_1, et même Q3_0.

Bonne création, et laissez le rêve du faible nombre de bits devenir une réalité sur votre poste‑de‑banc !

Original Article: Voir l’original

Partager cet article