ComfyUI‑GGUF: GPUで低ビットモデルを実行する

January 20, 2026

タグ:

Open Source AI Models ComfyUI GGUF Quantization

ComfyUI‑GGUF: GPUで低ビットモデルを実行する

最近の低ビットモデル形式（GGUFなど）の急速な普及により、VRAMが限られた機械でも大規模ディフュージョンネットワークを実行できるようになりました。ComfyUI‑GGUF は軽量でオープンソースな拡張機能で、ComfyUIエコシステムに直接統合されます。UNet、Diffusion、さらにはT5テキストエンコーダの量子化GGUFファイルをロードできるようになるため、ハイエンドGPUを買わずに高品質画像を生成できます。

なぜGGUFが重要なのか

サイズと速度: GGUFは列算術形式でモデル重みを圧縮保存し、ビット幅を4ビットまたは3ビットに削減しつつ、モデル品質を保ちます。
オンザフライデクエンティゼーション: 拡張機能は実行時に重みを自動的にデクエンティゼーションし、CPU/GPUメモリ使用量を低く抑えます。FluxなどのTransformer/DiTアーキテクチャに特に有効です。
クロスプラットフォーム: Windows、macOS、Linuxならびに各OS向けのインストールガイドがリポジトリに含まれています。

主な対応モデル一覧

モデル	量子化	GGUFバリエーション
Flux 1‑Dev	Q4_0	`flux1-dev.gguf`
Flux Schnell	Q4_0	`flux1-schnell.gguf`
Stable Diffusion 3.5‑Large	Q4_0	`stable-diffusion-3.5-large.gguf`
Stable Diffusion 3.5‑Large‑Turbo	Q4_0	`stable-diffusion-3.5-large-turbo.gguf`
T5‑v1.1‑XXL	Q4_0	`t5_v1.1-xxl.gguf`

すべてのモデルは ComfyUI/models/unet（T5の場合は CLIP フォルダ）に配置し、新しいGGUF Unet Loaderで検出できるようにします。

1️⃣ インストール前提条件

ComfyUI – 最新（2024年10月以降）のバージョンが必要です（カスタム演算子サポート付き）。
Python 3.9+ – ggufパッケージを使用します。
Git – リポジトリをクローンするため。

⚠️ macOSの場合は torch 2.4.1 を使用してください。Torch 2.6.* のnightlyリリースは「M1バッファが十分ではない」エラーを引き起こします。

2️⃣ リポジトリをクローン

# ComfyUIインストールディレクトリから実行
git clone https://github.com/city96/ComfyUI-GGUF custom_nodes/ComfyUI-GGUF

クローン後、唯一の推論依存関係をインストールします：

pip install --upgrade gguf

スタンドアロンのComfyUIポータブルビルドを使用している場合は、ComfyUI_windows_portable フォルダ内で同じコマンドを実行し、Pythonを埋め込みインタプリタにポイントしてください。

3️⃣ 標準ローダーを置き換える

ComfyUIワークフローエディタを開き、Load Diffusion Modelノードを新しい Unet Loader (GGUF) ノードに置き換えます。ノードは bootleg カテゴリ内にあります。

💡 ノードはunetフォルダ内の.ggufファイルを自動スキャンし、単純にドロップすれば使用可能です。

4️⃣ 自分のモデルを量子化（任意）

非量子化チェックポイントをお持ちの場合、toolsフォルダのスクリプトを利用できます。

元の.ckptまたは.binを tools に配置。
スクリプトを実行（gguf CLIを内部使用）。例：

python tools/quantize.py --input sd3-large.ckpt --output sd3-large.gguf --bits 4

出力されたsd3-large.ggufはunetフォルダに置いてください。

5️⃣ 実験的LoRAサポート

LoRAローダーは現在実験段階ですが、組み込みLoRAノードと連携して成功したケースがあります。LoRA .ckpt をGGUF UNetと同時にロードするだけで、ComfyUIは実行時にマージします。

6️⃣ プラットフォーム別のヒント

Windows: ComfyUI_windows_portable 内でCMDを開き、pip install -r requirements.txt コマンドを実行。
macOS (Sequoia): バッファオーバーフローを避けるために torch==2.4.1 を使用。
Linux: 標準的な pip install で動作。GPUアクセラレーションを利用する場合は、最近のCUDAツールキットを入手してください。

🚀 低ビット推論を実行

セットアップ完了後、ComfyUIを起動し、シンプルなワークフローを使用：

Unet Loader (GGUF) を追加。
必要に応じて T5 Loader (GGUF) ノード（量子化テキストエンコーダ）を追加。
典型的な Text Prompt と Sampler ノードを挿入。
Generate をクリック。

GPUメモリ使用量が、フル精度で約10 GBだったものが、ビット幅に応じて約4 GB以下に減少することが確認できます。

📌 まとめ

ComfyUI‑GGUF は低ビット推論を創造AIツールの最前線に押し上げます。
VRAMコストを削減しつつ、視覚的忠実度は保ったクリーンなオープンソースソリューションです。
数命令のgit cloneとpip installだけで、NVIDIA RTX 4060や統合GPUでもFlux 1‑DevやStable Diffusion 3.5を実行可能です。
量子化レベルを調整し、Q4_0、Q4_1、Q3_0などのバリエーションを試してください。

楽しい生成を！低ビットドリームがデスクトップで実現する瞬間です。

元の記事: オリジナルを見る

この記事を共有