ComfyUI‑GGUF:让低位模型在您的 GPU 上运行

ComfyUI‑GGUF:让低位模型在您的 GPU 上运行

近来出现的低位模型格式(如 GGUF)使得在显存受限的机器上运行大型扩散网络成为可能。ComfyUI‑GGUF 是一个轻量、开源的扩展,直接集成到 ComfyUI 生态系统,支持加载 UNet、Diffusion 甚至 T5 文本编码器的量化 GGUF 文件。本指南将介绍相关概念、安装步骤和实际使用方法,帮助您无需高端 GPU 就能生成高质量图像。

GGUF 的重要性

  • 体积与速度:GGUF 将模型权重保存为压缩的列算术格式,可将每个权重的位宽降低到 4 位或 3 位,同时保持模型质量不变。
  • 实时去量化:扩展在运行时自动去量化权重,保持 CPU/GPU 内存使用低。对于像 Flux 这样的 Transformer/DiT 架构特别有效。
  • 跨平台:无论您使用 Windows、macOS 还是 Linux,仓库都包含各平台的安装指南。

支持模型一览

模型 量化 GGUF 变体
Flux 1‑Dev Q4_0 flux1-dev.gguf
Flux Schnell Q4_0 flux1-schnell.gguf
Stable Diffusion 3.5‑Large Q4_0 stable-diffusion-3.5-large.gguf
Stable Diffusion 3.5‑Large‑Turbo Q4_0 stable-diffusion-3.5-large-turbo.gguf
T5‑v1.1‑XXL Q4_0 t5_v1.1-xxl.gguf

所有模型都放入 ComfyUI/models/unet 文件夹(或 T5 的 CLIP 文件夹),新的 GGUF Unet Loader 将自动检测。

1️⃣ 安装前提

  1. ComfyUI – 确保您正在使用支持自定义操作的近期版本(2024 年 10 月之后)。
  2. Python 3.9+ – 扩展依赖 gguf 包。
  3. Git – 在本地克隆仓库。

⚠️ 对 macOS,使用 torch 2.4.1。Torch 2.6.* 的夜间版本会产生 “M1 buffer is not large enough” 错误。

2️⃣ 克隆仓库

# 从 ComfyUI 的根目录
git clone https://github.com/city96/ComfyUI-GGUF custom_nodes/ComfyUI-GGUF

克隆完成后,安装唯一的推理依赖:

pip install --upgrade gguf

如果您使用 stand‑alone ComfyUI portable 版,请在 ComfyUI_windows_portable 文件夹内执行上述命令,并将 Python 指向嵌入式解释器。

3️⃣ 替换标准加载器

在 ComfyUI 工作流编辑器中,将标准 Load Diffusion Model 节点替换为新的 Unet Loader (GGUF) 节点。该节点位于 bootleg 分类下。

💡 节点会自动扫描 unet 文件夹中的 .gguf 文件;只需将量化归档放入,即可使用。

4️⃣ 可选:量化您自己的模型

如果您拥有非量化的检查点,可以使用 tools 文件夹中的脚本。

  1. 将原始 .ckpt.bin 放入 tools 文件夹。
  2. 运行提供的量化脚本(底层使用 gguf CLI)。示例:
python tools/quantize.py --input sd3-large.ckpt --output sd3-large.gguf --bits 4

这将生成一个 sd3-large.gguf,您可以将其放入 unet 文件夹。

5️⃣ 实验性 LoRA 支持

目前,LoRA 加载器仍为实验性,但在使用内置 LoRA 节点时已成功集成。只需与 GGUF UNet 一起加载您的 LoRA .ckpt,ComfyUI 将在运行时完成合并。

6️⃣ 平台特定提示

  • Windows:在 ComfyUI_windows_portable 内启动 CMD,然后执行 pip install -r requirements.txt 命令。
  • macOS (Sequoia):使用 torch==2.4.1 避免缓冲区溢出。
  • Linux:标准的 pip install 可直接使用;若计划使用 GPU 加速,请确保安装了较新版本的 CUDA 工具包。

🚀 运行低位推理

设置完成后,启动 ComfyUI,使用以下简单工作流:

  1. 添加 Unet Loader (GGUF) 节点。
  2. 如需量化文本编码器,请添加 T5 Loader (GGUF) 节点。
  3. 插入标准的 Text PromptSampler 节点。
  4. 点击 Generate 按钮。

您会发现 GPU 内存使用量从约 10 GB(完整精度)降至 4 GB 或更少,具体取决于位宽。

📌 关键要点

  • ComfyUI‑GGUF 将低位推理带到创意 AI 工具的前沿。
  • 这是一种干净、开源的解决方案,在不影响视觉质量的前提下降低显存成本。
  • 只需几个 git clone 命令和一次 pip install,即可在 NVIDIA RTX 4060 或甚至集成 GPU 上运行 Flux 1‑Dev 或 Stable Diffusion 3.5。
  • 尝试不同的量化级别——该库支持 Q4_0、Q4_1 甚至 Q3_0 变体。

祝生成愉快,让低位梦想在您的桌面上成为现实!

原创文章: 查看原文

分享本文