摘要:Nunchaku是一款针对4-bit神经网络优化的高性能推理引擎,通过核融合技术显著降低内存占用并提升运算速度。本文详细介绍了Nunchaku核心功能、特点、安装步骤、应用方式及实测效果。该引擎通过核融合减少冗余内存访问,能在保持图像质量的同时降低内存占用、加快运算速度,最新版本支持多种工具和模型。文章还详细说明了其安装所需的环境配置、依赖库及模型安装,应用时的节点替代方法,以及实测中图像质量无明显下降、生图速度显著提升的效果。
———————————————————————————————————————————
Nunchaku 是一款为 4-bit 神经网络优化的高性能推理引擎,将低秩分支的核融合到低比特分支的核中,以减少冗余的内存访问,可以在保持图像质量的基础上,大大降低内存占用量,加快运算速度。
根据Nunchaku官方介绍,该推理引擎主要有以下几个特点:
①有效降低内存占用:在 12B FLUX.1-dev 上,它比 BF16 模型减少了 3.6 倍的内存占用。
②明显提升运算速度:通过消除 CPU 卸载,在 16GB 笔记本电脑的 4090 GPU 上,它比 16 位模型快 8.7 倍,比 NF4 W4A16 基线快 3 倍。
③保持模型出图质量:通过4-bit神经网络优化的推理,原模型出图质量不降低。
根据nunchaku的官方动态,最新版本的nunchaku已支持FLUX-tools、LORA、controlnet、PULID和FLUX.1-kontext。
下面我们就nunchaku的安装、应用以及推理效果进行详细测评与讲解。
项目地址:https://github.com/nunchaku-tech/nunchaku
——————————————————————————————————————————
本节课程所涉及的模型网盘下载链接:
20系30系40系等显卡通用:https://pan.quark.cn/s/4ac838a0770a
50系显卡专用:https://pan.quark.cn/s/0998fa00ebdd
——————————————————————————————————————————
1 安装
1.1 环境配置-pytorch版本配置
在安装nunchaku之前需要对环境进行配置,要求pytorch版本≥2.5(如果是50系显卡,需要使用 PyTorch ≥ 2.7 与 CUDA ≥ 12.8)
pytorch版本查看方法:开启绘世启动器,运行数据中会显示pytorch版本及cuda版本,比如我的电脑pytorch版本是2.7.0,cuda版本是12.8。
如果pytorch版本过低,可以到绘世启动器的“高级选项”界面下“环境维护”页面进行安装,方式如下图所示:
注意:电脑安装的cuda版本需要与启动器后台显示的cuda版本一致,否则可能nunchaku无法启用,如出现问题可以尝试重新对电脑的cuda进行安装。
1.2 依赖库安装
1.2.1 python版本查询
nunchaku依赖库的安装需要对应具体的python版本,查询方法如下:
(1)可以在绘世启动器中,查看到python数据,比如我本地python版本是3.11.9
(2)也可以用下面的方法,在comfyui的安装目录中找到python文件夹并打开
地址栏输入cmd,调出命令行,输入python --version
1.2.2 nunchaku轮子下载
轮子下载链接:https://huggingface.co/mit-han-lab/nunchaku/tree/main
可以看到轮子下载页面下文件版本众多,需要找到与个人电脑环境适配的torch版本及python版本进行下载安装。
比如我本地torch版本是2.7.0,就选择torch2.7相关版本的;python版本是3.11.9,对应型号是cp311;
综上,我需要下载nunchaku-0.3.1+torch2.7-cp311-cp311-win_amd64.whl这个版本文件,文件下载到comfyui安装目录的python目录下。
1.2.3 轮子安装
在python文件夹目录的地址栏输入cmd,命令行输入 python.exe -m pip install nunchaku-0.3.1+torch2.7-cp311-cp311-win_amd64.whl进行安装(注意此处仅为示例,轮子版本需改为个人所下载的版本型号)
1.3 插件安装
插件地址https://github.com/nunchaku-tech/ComfyUI-nunchaku
可通过管理器进行下载,搜索comfyui-nunchaku安装即可
1.4 模型安装
模型下载地址:https://huggingface.co/mit-han-lab
除50系显卡外,所有显卡均使用INT4 模型(如果你是50系显卡,则需要下载标注有FP4的模型);
模型文件安装地址..\ComfyUI\models\diffusion_models\
目前支持的模型已经比较全面,除基础的flux.1-dev外,还包括canny、depth、Fill、kontext模型。该模型下载界面显示模型较多,大家优先按照功能进入对应nunchaku开头的链接可以看到两个版本的模型直接进行下载,进入svdq-fp4或int4的链接下载的模型则需要自行重命名。
进入后可见两个版本模型文件已进行命名,下载对应版本即可。
2 应用
2.1 主要节点
nunchaku的应用十分简单,仅由几个专用的模型加载节点来替代flux工作流中的模型加载节点即可。
以nunchaku来运行FLUX.1基础文生图工作流为例,主要有三个模型加载器:
Nunchaku FLUX DiT Loader 替代 UNET加载器;
Nunchaku Text Encoder Loader (Deprecated) 替代 双CLIP加载器;
Nunchaku FLUX.1 LoRA Loader 替代 loRA加载器;
2.2 工作流
工作流的搭建与原始FLUX模型工作流并无区别,只需要将上述模型加载器替代原工作流中对应的节点即可。
官方在插件安装目录里也提供了多个模型的案例工作流,文件地址如下,可以自行打开测试,地址:..\ComfyUI\custom_nodes\ComfyUI-nunchaku\example_workflows
由于官方案例在不同的文件中,不便于对照使用,且部分节点使用和参数设置不符合日常使用需求,故在本节内容附件文件中,已对官方案例中常用的模型类型进行汇总并进行整理调整,详见本节内容附件中汇总工作流。
整理后的工作流示例如下:
注意要点:
模型加载器中的参数“cpu_offload”,"CPU offload"(CPU 卸载)技术,这是在 GPU 显存不足时,将模型的部分层卸载到 CPU 内存中运行的策略,以减少 GPU 显存占用。如果运行报错显示显存不足,记得将该选项调整到打开(设置为自动可能不生效),运行将部分模型到CPU中运算,可以解决显存不足问题。
2.3 实测效果
根据实测,使用nunchaku模型获得的图像质量并无明显下降,但是生图速度确实获得了倍数级的加快。我的显卡一般(4060/16G),使用nunchaku模型首次生图用时约35秒,后续生图则都在10秒以内。
欢迎正在学习comfyui等ai技术的伙伴V加huaqingshan进入学习小组。在这里大家共同学习comfyui的基础知识、最新模型与工作流、行业前沿信息等,也可以讨论comfyui商业落地的思路与方向、实现副业自由。 欢迎感兴趣的小伙伴,分享博主自用的comfyui整合包(已安装超全节点与必备模型)、基础学习资料、高级工作流等……
致敬每一位在路上的学习者,你我共勉!Ai技术发展迅速,学习comfyUI是紧跟时代的第一步,促进商业落地并创造价值才是学习的实际目标。
本节课程所涉及的模型网盘下载链接:
20系30系40系等显卡通用:https://pan.quark.cn/s/4ac838a0770a
50系显卡专用:https://pan.quark.cn/s/0998fa00ebdd
——画青山学习专栏———————————————————————————————
Webui基础学习与实操:https://blog.csdn.net/vip_zgx888/category_13020854.html
Comfyui基础学习与实操:https://blog.csdn.net/vip_zgx888/category_13006170.html
comfyui功能精进与探索:https://blog.csdn.net/vip_zgx888/category_13005478.html
系列专栏持续更新中,欢迎订阅关注,共同学习,共同进步!
—————————————————————————————————————————