ComfyUI‑GGUF: GPUで低ビットモデルを実行する
ComfyUI‑GGUF: GPUで低ビットモデルを実行する
最近の低ビットモデル形式(GGUFなど)の急速な普及により、VRAMが限られた機械でも大規模ディフュージョンネットワークを実行できるようになりました。ComfyUI‑GGUF は軽量でオープンソースな拡張機能で、ComfyUIエコシステムに直接統合されます。UNet、Diffusion、さらにはT5テキストエンコーダの量子化GGUFファイルをロードできるようになるため、ハイエンドGPUを買わずに高品質画像を生成できます。
なぜGGUFが重要なのか
- サイズと速度: GGUFは列算術形式でモデル重みを圧縮保存し、ビット幅を4ビットまたは3ビットに削減しつつ、モデル品質を保ちます。
- オンザフライデクエンティゼーション: 拡張機能は実行時に重みを自動的にデクエンティゼーションし、CPU/GPUメモリ使用量を低く抑えます。FluxなどのTransformer/DiTアーキテクチャに特に有効です。
- クロスプラットフォーム: Windows、macOS、Linuxならびに各OS向けのインストールガイドがリポジトリに含まれています。
主な対応モデル一覧
| モデル | 量子化 | GGUFバリエーション |
|---|---|---|
| Flux 1‑Dev | Q4_0 | flux1-dev.gguf |
| Flux Schnell | Q4_0 | flux1-schnell.gguf |
| Stable Diffusion 3.5‑Large | Q4_0 | stable-diffusion-3.5-large.gguf |
| Stable Diffusion 3.5‑Large‑Turbo | Q4_0 | stable-diffusion-3.5-large-turbo.gguf |
| T5‑v1.1‑XXL | Q4_0 | t5_v1.1-xxl.gguf |
すべてのモデルは ComfyUI/models/unet(T5の場合は CLIP フォルダ)に配置し、新しいGGUF Unet Loaderで検出できるようにします。
1️⃣ インストール前提条件
- ComfyUI – 最新(2024年10月以降)のバージョンが必要です(カスタム演算子サポート付き)。
- Python 3.9+ –
ggufパッケージを使用します。 - Git – リポジトリをクローンするため。
⚠️ macOSの場合は torch 2.4.1 を使用してください。Torch 2.6.* のnightlyリリースは「M1バッファが十分ではない」エラーを引き起こします。
2️⃣ リポジトリをクローン
# ComfyUIインストールディレクトリから実行
git clone https://github.com/city96/ComfyUI-GGUF custom_nodes/ComfyUI-GGUF
クローン後、唯一の推論依存関係をインストールします:
pip install --upgrade gguf
スタンドアロンのComfyUIポータブルビルドを使用している場合は、ComfyUI_windows_portable フォルダ内で同じコマンドを実行し、Pythonを埋め込みインタプリタにポイントしてください。
3️⃣ 標準ローダーを置き換える
ComfyUIワークフローエディタを開き、Load Diffusion Modelノードを新しい Unet Loader (GGUF) ノードに置き換えます。ノードは bootleg カテゴリ内にあります。
💡 ノードは
unetフォルダ内の.ggufファイルを自動スキャンし、単純にドロップすれば使用可能です。
4️⃣ 自分のモデルを量子化(任意)
非量子化チェックポイントをお持ちの場合、toolsフォルダのスクリプトを利用できます。
- 元の
.ckptまたは.binをtoolsに配置。 - スクリプトを実行(
ggufCLIを内部使用)。例:
python tools/quantize.py --input sd3-large.ckpt --output sd3-large.gguf --bits 4
出力されたsd3-large.ggufはunetフォルダに置いてください。
5️⃣ 実験的LoRAサポート
LoRAローダーは現在実験段階ですが、組み込みLoRAノードと連携して成功したケースがあります。LoRA .ckpt をGGUF UNetと同時にロードするだけで、ComfyUIは実行時にマージします。
6️⃣ プラットフォーム別のヒント
- Windows:
ComfyUI_windows_portable内でCMDを開き、pip install -r requirements.txtコマンドを実行。 - macOS (Sequoia): バッファオーバーフローを避けるために
torch==2.4.1を使用。 - Linux: 標準的な
pip installで動作。GPUアクセラレーションを利用する場合は、最近のCUDAツールキットを入手してください。
🚀 低ビット推論を実行
セットアップ完了後、ComfyUIを起動し、シンプルなワークフローを使用:
- Unet Loader (GGUF) を追加。
- 必要に応じて T5 Loader (GGUF) ノード(量子化テキストエンコーダ)を追加。
- 典型的な Text Prompt と Sampler ノードを挿入。
- Generate をクリック。
GPUメモリ使用量が、フル精度で約10 GBだったものが、ビット幅に応じて約4 GB以下に減少することが確認できます。
📌 まとめ
- ComfyUI‑GGUF は低ビット推論を創造AIツールの最前線に押し上げます。
- VRAMコストを削減しつつ、視覚的忠実度は保ったクリーンなオープンソースソリューションです。
- 数命令の
git cloneとpip installだけで、NVIDIA RTX 4060や統合GPUでもFlux 1‑DevやStable Diffusion 3.5を実行可能です。 - 量子化レベルを調整し、Q4_0、Q4_1、Q3_0などのバリエーションを試してください。
楽しい生成を!低ビットドリームがデスクトップで実現する瞬間です。