ComfyUI‑GGUF：让低位模型在您的 GPU 上运行

January 20, 2026

类别: 实用开源项目

标签:

Open Source AI Models ComfyUI GGUF Quantization

ComfyUI‑GGUF：让低位模型在您的 GPU 上运行

近来出现的低位模型格式（如 GGUF）使得在显存受限的机器上运行大型扩散网络成为可能。ComfyUI‑GGUF 是一个轻量、开源的扩展，直接集成到 ComfyUI 生态系统，支持加载 UNet、Diffusion 甚至 T5 文本编码器的量化 GGUF 文件。本指南将介绍相关概念、安装步骤和实际使用方法，帮助您无需高端 GPU 就能生成高质量图像。

GGUF 的重要性

体积与速度：GGUF 将模型权重保存为压缩的列算术格式，可将每个权重的位宽降低到 4 位或 3 位，同时保持模型质量不变。
实时去量化：扩展在运行时自动去量化权重，保持 CPU/GPU 内存使用低。对于像 Flux 这样的 Transformer/DiT 架构特别有效。
跨平台：无论您使用 Windows、macOS 还是 Linux，仓库都包含各平台的安装指南。

支持模型一览

模型	量化	GGUF 变体
Flux 1‑Dev	Q4_0	`flux1-dev.gguf`
Flux Schnell	Q4_0	`flux1-schnell.gguf`
Stable Diffusion 3.5‑Large	Q4_0	`stable-diffusion-3.5-large.gguf`
Stable Diffusion 3.5‑Large‑Turbo	Q4_0	`stable-diffusion-3.5-large-turbo.gguf`
T5‑v1.1‑XXL	Q4_0	`t5_v1.1-xxl.gguf`

所有模型都放入 ComfyUI/models/unet 文件夹（或 T5 的 CLIP 文件夹），新的 GGUF Unet Loader 将自动检测。

1️⃣ 安装前提

ComfyUI – 确保您正在使用支持自定义操作的近期版本（2024 年 10 月之后）。
Python 3.9+ – 扩展依赖 gguf 包。
Git – 在本地克隆仓库。

⚠️ 对 macOS，使用 torch 2.4.1。Torch 2.6.* 的夜间版本会产生 “M1 buffer is not large enough” 错误。

2️⃣ 克隆仓库

# 从 ComfyUI 的根目录
git clone https://github.com/city96/ComfyUI-GGUF custom_nodes/ComfyUI-GGUF

克隆完成后，安装唯一的推理依赖：

pip install --upgrade gguf

如果您使用 stand‑alone ComfyUI portable 版，请在 ComfyUI_windows_portable 文件夹内执行上述命令，并将 Python 指向嵌入式解释器。

3️⃣ 替换标准加载器

在 ComfyUI 工作流编辑器中，将标准 Load Diffusion Model 节点替换为新的 Unet Loader (GGUF) 节点。该节点位于 bootleg 分类下。

💡 节点会自动扫描 unet 文件夹中的 .gguf 文件；只需将量化归档放入，即可使用。

4️⃣ 可选：量化您自己的模型

如果您拥有非量化的检查点，可以使用 tools 文件夹中的脚本。

将原始 .ckpt 或 .bin 放入 tools 文件夹。
运行提供的量化脚本（底层使用 gguf CLI）。示例：

python tools/quantize.py --input sd3-large.ckpt --output sd3-large.gguf --bits 4

这将生成一个 sd3-large.gguf，您可以将其放入 unet 文件夹。

5️⃣ 实验性 LoRA 支持

目前，LoRA 加载器仍为实验性，但在使用内置 LoRA 节点时已成功集成。只需与 GGUF UNet 一起加载您的 LoRA .ckpt，ComfyUI 将在运行时完成合并。

6️⃣ 平台特定提示

Windows：在 ComfyUI_windows_portable 内启动 CMD，然后执行 pip install -r requirements.txt 命令。
macOS (Sequoia)：使用 torch==2.4.1 避免缓冲区溢出。
Linux：标准的 pip install 可直接使用；若计划使用 GPU 加速，请确保安装了较新版本的 CUDA 工具包。

🚀 运行低位推理

设置完成后，启动 ComfyUI，使用以下简单工作流：

添加 Unet Loader (GGUF) 节点。
如需量化文本编码器，请添加 T5 Loader (GGUF) 节点。
插入标准的 Text Prompt 和 Sampler 节点。
点击 Generate 按钮。

您会发现 GPU 内存使用量从约 10 GB（完整精度）降至 4 GB 或更少，具体取决于位宽。

📌 关键要点

ComfyUI‑GGUF 将低位推理带到创意 AI 工具的前沿。
这是一种干净、开源的解决方案，在不影响视觉质量的前提下降低显存成本。
只需几个 git clone 命令和一次 pip install，即可在 NVIDIA RTX 4060 或甚至集成 GPU 上运行 Flux 1‑Dev 或 Stable Diffusion 3.5。
尝试不同的量化级别——该库支持 Q4_0、Q4_1 甚至 Q3_0 变体。

祝生成愉快，让低位梦想在您的桌面上成为现实！

原创文章: 查看原文

分享本文