comfyui超级加速神器-Nunchaku双截棍（Flux系列工作流超级加速模型）安装应用详解

画青山

已于 2025-08-11 17:22:42 修改

阅读量1.1k

点赞数 34

CC 4.0 BY-SA版权

分类专栏： Comfyui功能精进与探索文章标签： comfyui教程 flux加速双节棍双截棍 nunchaku 轮子安装

于 2025-08-11 12:50:31 首次发布

本文链接：https://blog.csdn.net/VIP_ZGX888/article/details/150212453

Comfyui功能精进与探索专栏收录该内容

8 篇文章

订阅专栏

摘要：Nunchaku是一款针对4-bit神经网络优化的高性能推理引擎，通过核融合技术显著降低内存占用并提升运算速度。本文详细介绍了Nunchaku核心功能、特点、安装步骤、应用方式及实测效果。该引擎通过核融合减少冗余内存访问，能在保持图像质量的同时降低内存占用、加快运算速度，最新版本支持多种工具和模型。文章还详细说明了其安装所需的环境配置、依赖库及模型安装，应用时的节点替代方法，以及实测中图像质量无明显下降、生图速度显著提升的效果。

———————————————————————————————————————————

Nunchaku 是一款为 4-bit 神经网络优化的高性能推理引擎，将低秩分支的核融合到低比特分支的核中，以减少冗余的内存访问，可以在保持图像质量的基础上，大大降低内存占用量，加快运算速度。

根据Nunchaku官方介绍，该推理引擎主要有以下几个特点：

①有效降低内存占用：在 12B FLUX.1-dev 上，它比 BF16 模型减少了 3.6 倍的内存占用。

②明显提升运算速度：通过消除 CPU 卸载，在 16GB 笔记本电脑的 4090 GPU 上，它比 16 位模型快 8.7 倍，比 NF4 W4A16 基线快 3 倍。

③保持模型出图质量：通过4-bit神经网络优化的推理，原模型出图质量不降低。

根据nunchaku的官方动态，最新版本的nunchaku已支持FLUX-tools、LORA、controlnet、PULID和FLUX.1-kontext。

下面我们就nunchaku的安装、应用以及推理效果进行详细测评与讲解。

项目地址：https://github.com/nunchaku-tech/nunchaku

——————————————————————————————————————————

本节课程所涉及的模型网盘下载链接：

20系30系40系等显卡通用：https://pan.quark.cn/s/4ac838a0770a

50系显卡专用：https://pan.quark.cn/s/0998fa00ebdd

——————————————————————————————————————————

1 安装

1.1 环境配置-pytorch版本配置

在安装nunchaku之前需要对环境进行配置，要求pytorch版本≥2.5（如果是50系显卡，需要使用 PyTorch ≥ 2.7 与 CUDA ≥ 12.8）

pytorch版本查看方法：开启绘世启动器，运行数据中会显示pytorch版本及cuda版本，比如我的电脑pytorch版本是2.7.0，cuda版本是12.8。

如果pytorch版本过低，可以到绘世启动器的“高级选项”界面下“环境维护”页面进行安装，方式如下图所示：

注意：电脑安装的cuda版本需要与启动器后台显示的cuda版本一致，否则可能nunchaku无法启用，如出现问题可以尝试重新对电脑的cuda进行安装。

1.2 依赖库安装

1.2.1 python版本查询

nunchaku依赖库的安装需要对应具体的python版本，查询方法如下：

（1）可以在绘世启动器中，查看到python数据，比如我本地python版本是3.11.9

（2）也可以用下面的方法，在comfyui的安装目录中找到python文件夹并打开

地址栏输入cmd，调出命令行，输入python --version

1.2.2 nunchaku轮子下载

轮子下载链接：https://huggingface.co/mit-han-lab/nunchaku/tree/main

可以看到轮子下载页面下文件版本众多，需要找到与个人电脑环境适配的torch版本及python版本进行下载安装。

比如我本地torch版本是2.7.0，就选择torch2.7相关版本的；python版本是3.11.9，对应型号是cp311；

综上，我需要下载nunchaku-0.3.1+torch2.7-cp311-cp311-win_amd64.whl这个版本文件，文件下载到comfyui安装目录的python目录下。

1.2.3 轮子安装

在python文件夹目录的地址栏输入cmd，命令行输入 python.exe -m pip install nunchaku-0.3.1+torch2.7-cp311-cp311-win_amd64.whl进行安装（注意此处仅为示例，轮子版本需改为个人所下载的版本型号）

1.3 插件安装

插件地址https://github.com/nunchaku-tech/ComfyUI-nunchaku

可通过管理器进行下载，搜索comfyui-nunchaku安装即可

1.4 模型安装

模型下载地址：https://huggingface.co/mit-han-lab

除50系显卡外，所有显卡均使用INT4 模型（如果你是50系显卡，则需要下载标注有FP4的模型）；

模型文件安装地址..\ComfyUI\models\diffusion_models\

目前支持的模型已经比较全面，除基础的flux.1-dev外，还包括canny、depth、Fill、kontext模型。该模型下载界面显示模型较多，大家优先按照功能进入对应nunchaku开头的链接可以看到两个版本的模型直接进行下载，进入svdq-fp4或int4的链接下载的模型则需要自行重命名。

进入后可见两个版本模型文件已进行命名，下载对应版本即可。

2 应用

2.1 主要节点

nunchaku的应用十分简单，仅由几个专用的模型加载节点来替代flux工作流中的模型加载节点即可。

以nunchaku来运行FLUX.1基础文生图工作流为例，主要有三个模型加载器：

Nunchaku FLUX DiT Loader 替代 UNET加载器；

Nunchaku Text Encoder Loader (Deprecated) 替代双CLIP加载器；

Nunchaku FLUX.1 LoRA Loader 替代 loRA加载器；

2.2 工作流

工作流的搭建与原始FLUX模型工作流并无区别，只需要将上述模型加载器替代原工作流中对应的节点即可。

官方在插件安装目录里也提供了多个模型的案例工作流，文件地址如下，可以自行打开测试，地址：..\ComfyUI\custom_nodes\ComfyUI-nunchaku\example_workflows

由于官方案例在不同的文件中，不便于对照使用，且部分节点使用和参数设置不符合日常使用需求，故在本节内容附件文件中，已对官方案例中常用的模型类型进行汇总并进行整理调整，详见本节内容附件中汇总工作流。

整理后的工作流示例如下：

注意要点：

模型加载器中的参数“cpu_offload”,"CPU offload"（CPU 卸载）技术，这是在 GPU 显存不足时，将模型的部分层卸载到 CPU 内存中运行的策略，以减少 GPU 显存占用。如果运行报错显示显存不足，记得将该选项调整到打开（设置为自动可能不生效），运行将部分模型到CPU中运算，可以解决显存不足问题。

2.3 实测效果

根据实测，使用nunchaku模型获得的图像质量并无明显下降，但是生图速度确实获得了倍数级的加快。我的显卡一般（4060/16G），使用nunchaku模型首次生图用时约35秒，后续生图则都在10秒以内。

欢迎正在学习comfyui等ai技术的伙伴V加huaqingshan进入学习小组。在这里大家共同学习comfyui的基础知识、最新模型与工作流、行业前沿信息等，也可以讨论comfyui商业落地的思路与方向、实现副业自由。欢迎感兴趣的小伙伴，分享博主自用的comfyui整合包（已安装超全节点与必备模型）、基础学习资料、高级工作流等……

致敬每一位在路上的学习者，你我共勉！Ai技术发展迅速，学习comfyUI是紧跟时代的第一步，促进商业落地并创造价值才是学习的实际目标。