摘要:本文介绍webui应用中的五类模型,重点讲Stable diffusion(大模型)、VAE、Lora、Embedding模型,Hypernetwork因被Lora取代仅简要提及。大模型如不同风格画师,介绍了其版本(1.5、XL、Flux等)、1.5与XL及3.0版本的对比、下载安装方法;VAE负责图像转换,需与对应版本大模型搭配;Embeddings可整合提示词,多用于反向提示;Lora能辅助大模型生成特定特点内容,需匹配版本;Hypernetwork已基本被淘汰。
在webui应用中,我们会接触到的模型主要包括Stable diffusion模型、VAE模型、Lora模型、Embedding模型以及Hypernetwork模型五类(其中Hypernetwork模型的功能与lora模型有所重叠,目前基本上已被lora取代很少使用),本篇内容就集中模型的基础概念、版本区别、安装方法及应用等几个维度对webui各类模型进行全面介绍。
1 大模型
我们可以把SD大模型看成为一个个风格迥异的画师,更换不同的大模型就是更换了不同的画师。不同画师擅长的风格不同,生成的图像也自然有不同的风格,比如使用二次元风格的大模型会生成二次元风格的图像,而使用三次元风格的大模型则会生成三次元风格的图像;
1.1大模型版本介绍
作为初学者,看到SD大模型各种版本数字和字母真的感觉眼花缭乱,还有社区和视频平台提的的pony模型、Flux模型又是什么?下面我们就常用的SD大模型的版本进行简单的介绍:
SD官方基础大模型的发展经历了多个版本,包括1.5版本、2.0/2.1版本和SDXL版本(2.0/2.1版本没有被开源社区接受,一般把SDXL视为第二代SD模型),目前最新的版本是Flux版本模型及其衍生模型;
Pony模型实际上是SD-XL版本的衍生模型版本,擅长识别生成大量动漫游戏及角色,能够根据简单的提示词生成各种人类、野兽或者类人物种,常用作生成动漫角色和效果惊艳的NSFW图片(NSFW:Not Safe For Work,指可能带有淫秽色情、暴力血腥、极端另类等内容)。
Flux模型是指由黑森林实验室Black Forest Labs(核心成员来自原Stable Diffusion团队)2024年8月1日发布的模型,Flux和SD3在设计上非常类似,目前已经在web-UI及comfy-UI适配的方案。
作为SD初学者,我们这里先来了解对比目前应用更为基础的1.5版本和XL版本,SD3.X版本在XL版本基础上又做了相应升级。
1.2 大模型1.5版本和XL版本对比
SD1.5模型训练参数9.8亿,SD-XL的基础模型有35亿参数;
SD1.5训练的图片分辨率主要是512*512,SD-XL的训练图片是1024*1024,XL 高分辨率一段式生成,1.5需要低分辨率再进行高分辨率修复;
SD1.5版本上市时间长,适配的插件多;SD-XL版本插件没之前的多,但优点是画手脚出错更少,直接出图分辨率高;
SD1.5版本不具备在图中生成文字的能力;SD-XL版本初步具备图中生成文字的能力;
SD1.5版本提示词主要是短语,长句提示词出图效果不好;SD-XL版本可以理解长文本,自然语言描写图画,且对质量提示词和负面提示词的要求更低;
另外,对比SD1.5版本,SD-XL版本对电脑配置要求更高,1.5版本lora无法继承,且训练成本高,关键插件对XL的支持不完全。
注意:
(1)SD1.5版本和XL版本,大模型、Lora、VAE均不能混用,即不能跨版本使用,必须采用相应版本的模型和插件。
(2)部分SD-XL大模型设置有触发词,在下载大模型时需注意模型作者提供的说明信息。SDXL大模型通常内置了动漫、真人等不同风格,简单的风格提示词可以更稳定地触发训练集效果。
(3)SD-XL模型对512×512这种出图分辨率不支持,容易报错,建议出图尺寸768×1024,1024×1024,10124×1280,768×1280等。
1.3 3.0版本大模型对比XL版本的特点:
3.0版本及其衍生版本是XL版本的继续升级,对比XL版本,3.0版本主要有以下进步:
(1)真实感升级:类似于照片质感的细节处理,克服了手部及面部常见的伪影缺陷;
(2)提示词理解:对动作、风格、空间关系、构图元素等类似复杂提示有更好的理解;
(3)文字生成能力:在提示词中使用“某物品上面写着某某文字”的句式,在图中生成文字内容的准确性较XL版本有提升;
(4)长文本编辑:SD3大模型无需把提示词拆分成一个个用逗号隔开的单词,直接使用自然语句进行画面描述产生的图片效果往往更好。
1.4 大模型下载与安装
因为Civitai(C站)需要魔法上网,国内类似网站上基本可以找到丰富的模型,学习阶段登录国内分享社区(如:哩布哩布)等网站就可以下载足够的资源。
文件安装路径:*\stable-diffusion-webui\stable diffusion
在模型文件夹中可以根据模型版本或者分类划分文件夹,方便使用时查找,如“models”文件夹下新建“SD1.5”“SDXL”文件夹,将不同版本的大模型区分放置,便于调用。
当大模型数量较多时,为了便于快速区分不同大模型的效果,可以给大模型挂上对应的封面图,具体操作路径如下:大模型文件目录中,黏贴封面图,将封面图文件名设置成与大模型相同,安装后点击刷新按钮即可。
注意:封面图格式png,图片格式正确即可,文件名称不用再加PNG后缀,否则与大模型层不一致会导致无法显示。
2 VAE模型
2.1 VAE模型概念
VAE(Variational Autoencoder)变分自编码器,是一种生成模型,它通过学习输入数据的潜在表示来重构输入数据,负责将潜空间的数据转换为我们可以看到的正常图像。
VAE 由两部分组成:编码器和解码器。编码器将输入数据映射到一个潜在空间,解码器则从这个潜在空间重构数据。实际上,SD大模型中已经内置了默认的VAE编码器和解码器,在额外调用VAE的情况下也可以出图。
注:并不是所有的大模型都适合搭配web-UI界面中改进版本的VAE,有些大模型已经内嵌VAE模型,所以VAE最好搭配指定的模型,避免出现反效果,具体可以参照大模型发布作者的说明。
2.2 VAE模型版本
不同版本大模型之间的VAE不通用,1.5版本大模型需要大杯1.5版本的VAE,XL版本大模型需要搭配XL版本VAE。
示例:
SD1.5模型常用的VAE模型名为vae-ft-mse-840000-ema-pruned;
XL模型则需使用XL版本对应的VAE,如:sdxl_vae.safetensors(下载地址:
sdxl_vae.safetensors-Other-131****8664-LiblibAI)
2.3 VAE安装
VAE模型文件后缀一般为.pt格式;
文件位置:该模型一般放置在*\stable-diffusion-webui\models\VAE目录内。
嵌入式模型Embeddings、超网络模型Hypernetwork和Lora模型都属于微调模型,微调模型主要用于辅助出图,在webUI界面的功能区选项卡中可以进行选择调用。
3 嵌入式模型(Embeddings)
3.1 嵌入式模型概念
嵌入式Embeddings可以理解为能够代替关键特征的一个词组包,可以直接通过这个词组包告诉SD相关的特征,则可以省略掉复杂的提示词描述。
嵌入式模型往往只有几十Kb到几百Kb,数据量很小,控制的精度十分有限。目前,特定人物、风格的模型已基本被效果更好更精准的lora模型替代,嵌入式模型更常用于反向提示词。如“低分辨率、模糊、畸形、多余的手指、额外的肢体”等避免生成低质量图像的大段反向提示词,可以通过“嵌入式embedding”整合打包为一个模型包在编辑提示词时直接调用即可。
下表是一组填写反向提示词与直接调用embedding的对比图:
| | |
正向提示词:1girl, 反向提示词:无 | 正向提示词:1girl, 反向提示词:lowres, bad anatomy,bad hands, text, error,missing fingers, extra digit, fewer digits, cropped, worst quality, low quality,normal quality, jpeg artifacts, signature,watermark, username, blurry | 正向提示词:1girl, 反向提示词: 直接使用“EasyNegative” (一个常用的嵌入式词包) |
3.2 安装方法
将下载的模型放到根目录下的embeddings 文件夹即可,删除也是在这个文件夹中直接删除对应文件。
增加/删除后点击右侧的刷新按钮即可在界面中看到对应的文件。
注意:嵌入式(Embedding)需要搭配大模型使用,也需要区分1.5、XL、3.0等版本,选择大模型版本后,不匹配版本的embedding不会出现,可以在安装embeddings将不同版本的文件放在不同的文件夹中。
使用方法:选择正向/反向提示词框,点击要调用的embedding即可自动同步到提示词框中,embedding的名称在对话框中出现即代表已成功调用。注意,反向embedding不可用于正向提示词框,否则出现的图像很可能引人不适。
推荐几个使用率较高的embedding:
EasyNegative:适合二次元大模型
Deep Negative:二次元、写实风大模型均适用
badhand:减少手部缺陷出现可能
Fast Negative:提升精度,二次元、写实风大模型均适用
4 LoRA模型
4.1 lora模型概念
LoRA模型的全称是:Low-Rank Adaptation of Large Language Models,可以在不修改大模型的前提下,利用少量数据训练出一种画风、人物形象、材质、动作、风格等统一的特点,而不需要重新设计一个大模型。
lora是基于大模型训练出的,需要与大模型搭配使用,所以lora的版本也需要与大模型的版本对应,即1.5版本的lora仅适用于1.5版大模型,而不能与XL版大模型混用。
我们可以把lora看做是一个指定特定特点的插件,它的大小比大模型小得多(lora训练所需的数据也比大模型小得多),一般在几百M以内。
4.2 安装使用
安装方法:lora文件下载安装至根目录/models/Lora
使用方法:输入正向提示词,点击选择对应的lora,即可自动调用对应的lora。同时,lora和提示词一样均可以调整权重。我们也可以在提示词中使用 <lora:lora名称:权重>来调用lora.
4.3 使用要点
(1)大部分lora模型都设置有触发词,调用lora后,需要在提示词中填写该lora对应的触发词才会触发lora效果(触发词在各lora下载页面作者会有说明)。部分lora不需要触发词,主要是增加细节、提升质感的一些lora。
(2)需要调整lora的权重,从而改变lora对出图影响的效果(一般lora下载页面都有推荐权重)。
(3)不同的lora可以同时使用,通过调整权重来发挥每个lora的效果体现。
实际上个人训练lora模型其实也并不复杂,具体的方式我们在后文中会有详细说明及案例。
5 超网络模型Hypernetwork
超网络是指在扩散模型的基础上新建一个神经网络来增加控制参数,效果上与lora类似。
文件存放到:根目录\models\hypernetworks
实际应用时因为该模型训练难度高,应用并不广泛,目前已基本被lora模型取代所淘汰,所以我们了解有此概念即可,不必再深入研究。
总结:
这里分享webUI的本地整合包资源,包括秋叶官方基础版本(基础插件和必备模型)及个人自用的整合包(超全插件及模型)两个版本,大家按需下载。
两个版本均为整合包形式,无需安装,Windows系统下载打开即用。
「webui秋叶官方基础包--25G左右」https://pan.quark.cn/s/f59db843c0e7
「webui全能包(内置超全插件、模型)--100G左右」https://pan.quark.cn/s/e935fb0ff1c1
欢迎正在学习comfyui等ai技术的伙伴V加 huaqs123 进入学习小组。在这里大家共同学习comfyui的基础知识、最新模型与工作流、行业前沿信息等,也可以讨论comfyui商业落地的思路与方向。 欢迎感兴趣的小伙伴,群共享资料会分享博主自用的comfyui整合包(已安装超全节点与必备模型)、基础学习资料、高级工作流等资源……
致敬每一位在路上的学习者,你我共勉!Ai技术发展迅速,学习comfyUI是紧跟时代的第一步,促进商业落地并创造价值才是学习的实际目标。
——画青山Ai学习专栏———————————————————————————————
零基础学Webui:
https://blog.csdn.net/vip_zgx888/category_13020854.html
Comfyui基础学习与实操:
https://blog.csdn.net/vip_zgx888/category_13006170.html
comfyui功能精进与探索:
https://blog.csdn.net/vip_zgx888/category_13005478.html
系列专栏持续更新中,欢迎订阅关注,共同学习,共同进步!
—————————————————————————————————————————