ComfyUI‑GGUF: GPUで低ビットモデルを実行する

ComfyUI‑GGUF: GPUで低ビットモデルを実行する

最近の低ビットモデル形式(GGUFなど)の急速な普及により、VRAMが限られた機械でも大規模ディフュージョンネットワークを実行できるようになりました。ComfyUI‑GGUF は軽量でオープンソースな拡張機能で、ComfyUIエコシステムに直接統合されます。UNet、Diffusion、さらにはT5テキストエンコーダの量子化GGUFファイルをロードできるようになるため、ハイエンドGPUを買わずに高品質画像を生成できます。

なぜGGUFが重要なのか

  • サイズと速度: GGUFは列算術形式でモデル重みを圧縮保存し、ビット幅を4ビットまたは3ビットに削減しつつ、モデル品質を保ちます。
  • オンザフライデクエンティゼーション: 拡張機能は実行時に重みを自動的にデクエンティゼーションし、CPU/GPUメモリ使用量を低く抑えます。FluxなどのTransformer/DiTアーキテクチャに特に有効です。
  • クロスプラットフォーム: Windows、macOS、Linuxならびに各OS向けのインストールガイドがリポジトリに含まれています。

主な対応モデル一覧

モデル 量子化 GGUFバリエーション
Flux 1‑Dev Q4_0 flux1-dev.gguf
Flux Schnell Q4_0 flux1-schnell.gguf
Stable Diffusion 3.5‑Large Q4_0 stable-diffusion-3.5-large.gguf
Stable Diffusion 3.5‑Large‑Turbo Q4_0 stable-diffusion-3.5-large-turbo.gguf
T5‑v1.1‑XXL Q4_0 t5_v1.1-xxl.gguf

すべてのモデルは ComfyUI/models/unet(T5の場合は CLIP フォルダ)に配置し、新しいGGUF Unet Loaderで検出できるようにします。

1️⃣ インストール前提条件

  1. ComfyUI – 最新(2024年10月以降)のバージョンが必要です(カスタム演算子サポート付き)。
  2. Python 3.9+ggufパッケージを使用します。
  3. Git – リポジトリをクローンするため。

⚠️ macOSの場合は torch 2.4.1 を使用してください。Torch 2.6.* のnightlyリリースは「M1バッファが十分ではない」エラーを引き起こします。

2️⃣ リポジトリをクローン

# ComfyUIインストールディレクトリから実行
git clone https://github.com/city96/ComfyUI-GGUF custom_nodes/ComfyUI-GGUF

クローン後、唯一の推論依存関係をインストールします:

pip install --upgrade gguf

スタンドアロンのComfyUIポータブルビルドを使用している場合は、ComfyUI_windows_portable フォルダ内で同じコマンドを実行し、Pythonを埋め込みインタプリタにポイントしてください。

3️⃣ 標準ローダーを置き換える

ComfyUIワークフローエディタを開き、Load Diffusion Modelノードを新しい Unet Loader (GGUF) ノードに置き換えます。ノードは bootleg カテゴリ内にあります。

💡 ノードはunetフォルダ内の.ggufファイルを自動スキャンし、単純にドロップすれば使用可能です。

4️⃣ 自分のモデルを量子化(任意)

非量子化チェックポイントをお持ちの場合、toolsフォルダのスクリプトを利用できます。

  1. 元の.ckptまたは.bintools に配置。
  2. スクリプトを実行(gguf CLIを内部使用)。例:
python tools/quantize.py --input sd3-large.ckpt --output sd3-large.gguf --bits 4

出力されたsd3-large.ggufunetフォルダに置いてください。

5️⃣ 実験的LoRAサポート

LoRAローダーは現在実験段階ですが、組み込みLoRAノードと連携して成功したケースがあります。LoRA .ckpt をGGUF UNetと同時にロードするだけで、ComfyUIは実行時にマージします。

6️⃣ プラットフォーム別のヒント

  • Windows: ComfyUI_windows_portable 内でCMDを開き、pip install -r requirements.txt コマンドを実行。
  • macOS (Sequoia): バッファオーバーフローを避けるために torch==2.4.1 を使用。
  • Linux: 標準的な pip install で動作。GPUアクセラレーションを利用する場合は、最近のCUDAツールキットを入手してください。

🚀 低ビット推論を実行

セットアップ完了後、ComfyUIを起動し、シンプルなワークフローを使用:

  1. Unet Loader (GGUF) を追加。
  2. 必要に応じて T5 Loader (GGUF) ノード(量子化テキストエンコーダ)を追加。
  3. 典型的な Text PromptSampler ノードを挿入。
  4. Generate をクリック。

GPUメモリ使用量が、フル精度で約10 GBだったものが、ビット幅に応じて約4 GB以下に減少することが確認できます。

📌 まとめ

  • ComfyUI‑GGUF は低ビット推論を創造AIツールの最前線に押し上げます。
  • VRAMコストを削減しつつ、視覚的忠実度は保ったクリーンなオープンソースソリューションです。
  • 数命令のgit clonepip installだけで、NVIDIA RTX 4060や統合GPUでもFlux 1‑DevやStable Diffusion 3.5を実行可能です。
  • 量子化レベルを調整し、Q4_0、Q4_1、Q3_0などのバリエーションを試してください。

楽しい生成を!低ビットドリームがデスクトップで実現する瞬間です。

この記事を共有