ComfyUI‑GGUF : Exécuter des modèles à faible nombre de bits sur votre GPU
ComfyUI‑GGUF : Exécuter des modèles à faible nombre de bits sur votre GPU
La récente montée en popularité des formats de modèles à faible nombre de bits tels que GGUF a rendu possible l'exécution de grands réseaux de diffusion sur des machines disposant d'une VRAM limitée. ComfyUI‑GGUF est une extension légère et open-source qui s'intègre directement dans l'écosystème ComfyUI, vous permettant de charger des fichiers GGUF quantifiés pour UNet, Diffusion, et même le encodeur de texte T5. Ce guide passe en revue les concepts, les étapes d'installation et l'utilisation concrète afin que vous puissiez commencer à générer des images de haute qualité sans investir dans un GPU haut de gamme.
Pourquoi GGUF est important
- Taille et Vitesse : GGUF stocke les poids de modèle dans un format compressé et arithmétique colonne qui peut réduire la largeur de bits à 4‑bit ou 3‑bit par poids tout en maintenant la qualité du modèle.
- Déquantification en Temps Réel : L'extension déquantifie automatiquement les poids à l'exécution, gardant l'utilisation de la mémoire CPU/GPU faible. Cela est particulièrement utile pour les architectures transformer/DiT comme Flux.
- Multi-Plateforme : Que vous soyez sous Windows, macOS ou Linux, le dépôt inclut des guides d'installation spécifiques à chaque plateforme.
Modèles pris en charge d'un coup d'œil
| Modèle | Quantification | Variante GGUF |
|---|---|---|
| Flux 1‑Dev | Q4_0 | flux1-dev.gguf |
| Flux Schnell | Q4_0 | flux1-schnell.gguf |
| Stable Diffusion 3.5‑Large | Q4_0 | stable-diffusion-3.5-large.gguf |
| Stable Diffusion 3.5‑Large‑Turbo | Q4_0 | stable-diffusion-3.5-large-turbo.gguf |
| T5‑v1.1‑XXL | Q4_0 | t5_v1.1-xxl.gguf |
Tous les modèles sont placés dans le dossier ComfyUI/models/unet (ou le dossier CLIP pour T5) afin d'être découverts par le nouveau Chargeur Unet GGUF.
1️⃣ Prérequis d'Installation
- ComfyUI – Assurez-vous de disposer d'une version récente de ComfyUI (post‑octobre 2024) qui prend en charge les opérations personnalisées.
- Python 3.9+ – L'extension dépend du paquet
gguf. - Git – Clonez le dépôt localement.
⚠️ Sous macOS, utilisez torch 2.4.1. Les versions nightly de Torch 2.6.* déclenchent une erreur « M1 buffer is not large enough ».
2️⃣ Cloner le dépôt
# Depuis votre répertoire d'installation ComfyUI
git clone https://github.com/city96/ComfyUI-GGUF custom_nodes/ComfyUI-GGUF
Après le clonage, installez la seule dépendance d'inférence :
pip install --upgrade gguf
Si vous utilisez une version stand‑alone portable de ComfyUI, exécutez ces commandes dans le dossier ComfyUI_windows_portable et faites pointer Python vers l'interpréteur embarqué.
3️⃣ Remplacer le chargeur standard
Ouvrez votre éditeur de flux de travail ComfyUI et remplacez le nœud standard Load Diffusion Model par le nouveau nœud Unet Loader (GGUF). Le nœud se trouve dans la catégorie bootleg.
💡 Le nœud effectue automatiquement une recherche dans le dossier unet pour les fichiers
.gguf; il suffit de déposer l'archive quantifiée et vous êtes prêt.
4️⃣ Facultatif : Quantiser vos propres modèles
Si vous possédez un point de contrôle non quantifié, vous pouvez utiliser les scripts du dossier tools.
- Placez le fichier original
.ckptou.bindanstools. - Exécutez le script de quantisation fourni (il utilise la CLI
ggufen arrière-plan). Exemple :
python tools/quantize.py --input sd3-large.ckpt --output sd3-large.gguf --bits 4
Cela produira un fichier sd3-large.gguf que vous pourrez placer dans votre dossier unet.
5️⃣ Support expérimental LoRA
Actuellement, le chargeur LoRA est expérimental mais a montré une intégration réussie lorsqu'il est utilisé avec les nœuds LoRA intégrés. Chargez simplement votre fichier .ckpt LoRA aux côtés du UNet GGUF ; ComfyUI les fusionnera à l'exécution.
6️⃣ Conseils spécifiques à la plateforme
- Windows : Lancez une invite de commandes dans ComfyUI_windows_portable, puis exécutez la commande
pip install -r requirements.txt. - macOS (Sequoia) : Utilisez
torch==2.4.1pour éviter les dépassements de tampon. - Linux :
pip installstandard fonctionne ; assurez-vous d'avoir un kit d'outils CUDA récent si vous envisagez d'utiliser l'accélération GPU.
🚀 Exécution de l'inférence à faible nombre de bits
Après configuration, lancez ComfyUI et utilisez un flux de travail simple :
- Ajoutez Unet Loader (GGUF).
- Ajoutez un nœud T5 Loader (GGUF) si vous avez besoin d'un encodeur de texte quantifié.
- Insérez les nœuds standard Text Prompt et Sampler.
- Cliquez sur Generate.
Vous remarquerez une baisse de l'utilisation de la mémoire GPU, passant d'environ 10 GB (précision complète) à 4 GB ou moins, selon la largeur de bits.
📌 Points clés
- ComfyUI‑GGUF apporte l'inférence à faible nombre de bits au premier plan des outils créatifs d'IA.
- C'est une solution propre et open-source qui réduit les coûts de VRAM sans compromettre la fidélité visuelle.
- Avec quelques commandes
git cloneet unpip install, vous pouvez commencer à exécuter Flux 1‑Dev ou Stable Diffusion 3.5 sur une NVIDIA RTX 4060 ou même sur un GPU intégré. - Expérimentez avec les niveaux de quantification — la bibliothèque prend en charge les variantes Q4_0, Q4_1, et même Q3_0.
Bonne création, et laissez le rêve du faible nombre de bits devenir une réalité sur votre poste‑de‑banc !