7 WebUI模型概念与应用全解析--大模型&VAE模型&LoRA模型&Embedding模型&Hypernetwork模型

摘要:本文介绍webui应用中的五类模型,重点讲Stable diffusion(大模型)、VAE、Lora、Embedding模型,Hypernetwork因被Lora取代仅简要提及。大模型如不同风格画师,介绍了其版本(1.5、XL、Flux等)、1.5与XL及3.0版本的对比、下载安装方法;VAE负责图像转换,需与对应版本大模型搭配;Embeddings可整合提示词,多用于反向提示;Lora能辅助大模型生成特定特点内容,需匹配版本;Hypernetwork已基本被淘汰。

     在webui应用中,我们会接触到的模型主要包括Stable diffusion模型、VAE模型、Lora模型、Embedding模型以及Hypernetwork模型五类(其中Hypernetwork模型的功能与lora模型有所重叠,目前基本上已被lora取代很少使用),本篇内容就集中模型的基础概念、版本区别、安装方法及应用等几个维度对webui各类模型进行全面介绍。

1 大模型

    我们可以把SD大模型看成为一个个风格迥异的画师,更换不同的大模型就是更换了不同的画师。不同画师擅长的风格不同,生成的图像也自然有不同的风格,比如使用二次元风格的大模型会生成二次元风格的图像,而使用三次元风格的大模型则会生成三次元风格的图像‌;

1.1大模型版本介绍

    作为初学者,看到SD大模型各种版本数字和字母真的感觉眼花缭乱,还有社区和视频平台提的的pony模型、Flux模型又是什么?下面我们就常用的SD大模型的版本进行简单的介绍:

    SD官方基础大模型的发展经历了多个版本,包括1.5版本、2.0/2.1版本和SDXL版本(2.0/2.1版本没有被开源社区接受,一般把SDXL视为第二代SD模型),目前最新的版本是Flux版本模型及其衍生模型;

    Pony模型实际上是SD-XL版本的衍生模型版本,擅长识别生成大量动漫游戏及角色,能够根据简单的提示词生成各种人类、野兽或者类人物种,常用作生成动漫角色和效果惊艳的NSFW图片(NSFW:Not Safe For Work,指可能带有淫秽色情、暴力血腥、极端另类等内容)

    Flux模型是指由黑森林实验室Black Forest Labs(核心成员来自原Stable Diffusion团队)2024年8月1日发布的模型,Flux和SD3在设计上非常类似,目前已经在web-UI及comfy-UI适配的方案。

    作为SD初学者,我们这里先来了解对比目前应用更为基础的1.5版本和XL版本,SD3.X版本在XL版本基础上又做了相应升级。

1.2 大模型1.5版本和XL版本对比

    SD1.5模型训练参数9.8亿,SD-XL的基础模型有35亿参数;

    SD1.5训练的图片分辨率主要是512*512,SD-XL的训练图片是1024*1024,XL 高分辨率一段式生成,1.5需要低分辨率再进行高分辨率修复;

    SD1.5版本上市时间长,适配的插件多;SD-XL版本插件没之前的多,但优点是画手脚出错更少,直接出图分辨率高;

    SD1.5版本不具备在图中生成文字的能力;SD-XL版本初步具备图中生成文字的能力;

    SD1.5版本提示词主要是短语,长句提示词出图效果不好;SD-XL版本可以理解长文本,自然语言描写图画,且对质量提示词和负面提示词的要求更低;

    另外,对比SD1.5版本,SD-XL版本对电脑配置要求更高,1.5版本lora无法继承,且训练成本高,关键插件对XL的支持不完全。

注意:

(1)SD1.5版本和XL版本,大模型、Lora、VAE均不能混用,即不能跨版本使用,必须采用相应版本的模型和插件。

(2)部分SD-XL模型设置有触发词,在下载大模型时需注意模型作者提供的说明信息。SDXL大模型通常内置了动漫、真人等不同风格,简单的风格提示词可以更稳定地触发训练集效果。

(3)SD-XL模型对512×512这种出图分辨率不支持,容易报错,建议出图尺寸768×1024,1024×1024,10124×1280,768×1280等。

1.3 3.0版本大模型对比XL版本的特点:

    3.0版本及其衍生版本是XL版本的继续升级,对比XL版本,3.0版本主要有以下进步:

(1)真实感升级:类似于照片质感的细节处理,克服了手部及面部常见的伪影缺陷;

(2)提示词理解:对动作、风格、空间关系、构图元素等类似复杂提示有更好的理解;

(3)文字生成能力:在提示词中使用“某物品上面写着某某文字”的句式,在图中生成文字内容的准确性较XL版本有提升;

(4)长文本编辑:SD3大模型无需把提示词拆分成一个个用逗号隔开的单词,直接使用自然语句进行画面描述产生的图片效果往往更好。

1.4 大模型下载与安装

    因为Civitai(C站)需要魔法上网,国内类似网站上基本可以找到丰富的模型,学习阶段登录国内分享社区(如:哩布哩布)等网站就可以下载足够的资源。

    文件安装路径:*\stable-diffusion-webui\stable diffusion

    在模型文件夹中可以根据模型版本或者分类划分文件夹,方便使用时查找,如“models”文件夹下新建“SD1.5”“SDXL”文件夹,将不同版本的大模型区分放置,便于调用。

    当大模型数量较多时,为了便于快速区分不同大模型的效果,可以给大模型挂上对应的封面图,具体操作路径如下:大模型文件目录中,黏贴封面图,将封面图文件名设置成与大模型相同,安装后点击刷新按钮即可。

    注意:封面图格式png,图片格式正确即可,文件名称不用再加PNG后缀,否则与大模型层不一致会导致无法显示。

2 VAE模型

2.1 VAE模型概念

    VAE(Variational Autoencoder)变分自编码器,是一种生成模型,它通过学习输入数据的潜在表示来重构输入数据,负责将潜空间的数据转换为我们可以看到的正常图像。

    VAE 由两部分组成:编码器解码器。编码器将输入数据映射到一个潜在空间,解码器则从这个潜在空间重构数据。实际上,SD大模型中已经内置了默认的VAE编码器和解码器,在额外调用VAE的情况下也可以出图。

    注:并不是所有的大模型都适合搭配web-UI界面中改进版本的VAE,有些大模型已经内嵌VAE模型所以VAE最好搭配指定的模型,避免出现反效果,具体可以参照大模型发布作者的说明。

2.2 VAE模型版本

    不同版本大模型之间的VAE不通用,1.5版本大模型需要大杯1.5版本VAEXL版本大模型需要搭配XL版本VAE。

示例:

    SD1.5模型常用的VAE模型名为vae-ft-mse-840000-ema-pruned;

    XL模型则需使用XL版本对应的VAE,如:sdxl_vae.safetensors(下载地址:

    sdxl_vae.safetensors-Other-131****8664-LiblibAI

2.3 VAE安装

     VAE模型文件后缀一般为.pt格式

     文件位置:该模型一般放置在*\stable-diffusion-webui\models\VAE目录内。

    嵌入式模型Embeddings、超网络模型Hypernetwork和Lora模型都属于微调模型,微调模型主要用于辅助出图,在webUI界面的功能区选项卡中可以进行选择调用。

3 嵌入式模型(Embeddings)

3.1 嵌入式模型概念

     嵌入式Embeddings可以理解为能够代替关键特征的一个词组包,可以直接通过这个词组包告诉SD相关的特征,则可以省略掉复杂的提示词描述。

    嵌入式模型往往只有几十Kb到几百Kb,数据量很小,控制的精度十分有限。目前,特定人物、风格的模型已基本被效果更好更精准的lora模型替代,嵌入式模型更常用于反向提示词。如“低分辨率、模糊、畸形、多余的手指、额外的肢体”等避免生成低质量图像的大段反向提示词,可以通过“嵌入式embedding”整合打包为一个模型包在编辑提示词时直接调用即可。

    下表是一组填写反向提示词与直接调用embedding的对比图:

正向提示词:1girl,

反向提示词:无

正向提示词:1girl,

反向提示词:lowres, bad anatomy,bad hands, text, error,missing fingers, extra digit, fewer digits, cropped, worst quality, low quality,normal quality, jpeg artifacts, signature,watermark, username, blurry

正向提示词:1girl,

反向提示词:

直接使用“EasyNegative”

(一个常用的嵌入式词包)

3.2 安装方法

    将下载的模型放到根目录下的embeddings 文件夹即可,删除也是在这个文件夹中直接删除对应文件。

     增加/删除后点击右侧的刷新按钮即可在界面中看到对应的文件。

    注意:嵌入式(Embedding)需要搭配大模型使用,也需要区分1.5、XL、3.0等版本,选择大模型版本后,不匹配版本的embedding不会出现,可以在安装embeddings将不同版本的文件放在不同的文件夹中。

    使用方法:选择正向/反向提示词框,点击要调用的embedding即可自动同步到提示词框中,embedding的名称在对话框中出现即代表已成功调用。注意,反向embedding不可用于正向提示词框,否则出现的图像很可能引人不适。

    推荐几个使用率较高的embedding:

EasyNegative:适合二次元大模型

Deep Negative:二次元、写实风大模型均适用

badhand:减少手部缺陷出现可能

Fast Negative:提升精度,二次元、写实风大模型均适用

4 LoRA模型

4.1 lora模型概念

    LoRA模型的全称是:Low-Rank Adaptation of Large Language Models,可以在不修改大模型的前提下,利用少量数据训练出一种画风、人物形象、材质、动作、风格等统一的特点,而不需要重新设计一个大模型。

    lora是基于大模型训练出的,需要与大模型搭配使用,所以lora的版本也需要与大模型的版本对应,即1.5版本的lora仅适用于1.5版大模型,而不能与XL版大模型混用。

    我们可以把lora看做是一个指定特定特点的插件,它的大小比大模型小得多(lora训练所需的数据也比大模型小得多),一般在几百M以内。

4.2 安装使用

    安装方法:lora文件下载安装至根目录/models/Lora

    使用方法:输入正向提示词,点击选择对应的lora,即可自动调用对应的lora。同时,lora和提示词一样均可以调整权重。我们也可以在提示词中使用 <lora:lora名称:权重>来调用lora.

4.3 使用要点

(1)大部分lora模型都设置有触发词,调用lora后,需要在提示词中填写该lora对应的触发词才会触发lora效果(触发词在各lora下载页面作者会有说明)。部分lora不需要触发词,主要是增加细节、提升质感的一些lora。

(2)需要调整lora的权重,从而改变lora对出图影响的效果(一般lora下载页面都有推荐权重)。

(3)不同的lora可以同时使用,通过调整权重来发挥每个lora的效果体现。

实际上个人训练lora模型其实也并不复杂,具体的方式我们在后文中会有详细说明及案例。

5 超网络模型Hypernetwork

    超网络是指在扩散模型的基础上新建一个神经网络来增加控制参数,效果上与lora类似。

    文件存放到:根目录\models\hypernetworks

    实际应用时因为该模型训练难度高,应用并不广泛,目前已基本被lora模型取代所淘汰,所以我们了解有此概念即可,不必再深入研究。

 总结:

      这里分享webUI的本地整合包资源,包括秋叶官方基础版本(基础插件和必备模型)及个人自用的整合包(超全插件及模型)两个版本,大家按需下载。

     两个版本均为整合包形式,无需安装,Windows系统下载打开即用。

「webui秋叶官方基础包--25G左右」https://pan.quark.cn/s/f59db843c0e7

「webui全能包(内置超全插件、模型)--100G左右」https://pan.quark.cn/s/e935fb0ff1c1

    欢迎正在学习comfyui等ai技术的伙伴V加 huaqs123 进入学习小组。在这里大家共同学习comfyui的基础知识、最新模型与工作流、行业前沿信息等,也可以讨论comfyui商业落地的思路与方向。 欢迎感兴趣的小伙伴,群共享资料会分享博主自用的comfyui整合包(已安装超全节点与必备模型)、基础学习资料、高级工作流等资源……

    致敬每一位在路上的学习者,你我共勉!Ai技术发展迅速,学习comfyUI是紧跟时代的第一步,促进商业落地并创造价值才是学习的实际目标。

——画青山Ai学习专栏———————————————————————————————

零基础学Webui:

https://blog.csdn.net/vip_zgx888/category_13020854.html

Comfyui基础学习与实操:

https://blog.csdn.net/vip_zgx888/category_13006170.html

comfyui功能精进与探索:

https://blog.csdn.net/vip_zgx888/category_13005478.html

系列专栏持续更新中,欢迎订阅关注,共同学习,共同进步!

—————————————————————————————————————————

内容概要:本文介绍了一个基于MATLAB实现的RL-Transformer模型,将强化学习控制器(RL)Transformer编码器相结合,用于多变量时间序列预测。项目通过构建完整的数据预处理、模型设计、训练验证流程,利用Transformer的自注意力机制捕捉变量间的长距离依赖关系,并引入强化学习实现模型参数的动态调整,提升预测精度鲁棒性。模型架构包含四个核心模块:数据预处理、Transformer编码器、强化学习控制器和预测输出模块,支持并行计算自适应优化,有效应对复杂时序数据的非线性依赖、误差积累和环境变化等挑战。文中还提供了关键模块的MATLAB代码示例,包括多头注意力、前馈网络、层归一化及策略网络实现。; 适合人群:具备一定深度学习强化学习基础,熟悉MATLAB编程环境,从事时间序列预测、智能控制、工业数据分析等相关领域的研究人员工程师;适合高校研究生及企业研发人员; 使用场景及目标:①应用于金融、能源、交通、智能制造等领域的多变量时序预测任务;②实现模型自适应调节,提升长期预测稳定性;③探索深度强化学习Transformer在时序建模中的融合方法; 阅读建议:建议结合MATLAB深度学习强化学习工具箱进行代码复现,重点关注状态设计、奖励函数构建模型联合训练策略,建议配合完整项目代码GUI界面深入理解系统实现细节。
标题基于SpringBoot的家教信息匹配预约系统研究AI更换标题第1章引言介绍家教信息匹配预约系统的研究背景、意义、国内外现状及论文方法创新点。1.1研究背景意义阐述家教市场的需求及开发家教信息匹配预约系统的重要性。1.2国内外研究现状分析国内外在家教信息匹配预约系统方面的研究进展。1.3研究方法及创新点概述论文采用的研究方法及系统的创新点。第2章相关理论介绍SpringBoot框架、家教信息匹配算法及相关预约系统理论。2.1SpringBoot框架概述介绍SpringBoot框架的特点、优势及在系统开发中的应用。2.2家教信息匹配算法阐述家教信息匹配的原则、算法及优化策略。2.3预约系统相关理论讨论预约系统的设计原则、功能模块及用户交互理论。第3章基于SpringBoot的系统设计详细介绍基于SpringBoot的家教信息匹配预约系统的设计方案。3.1系统架构设计给出系统的整体架构、模块划分及数据流向。3.2数据库设计阐述数据库的设计原则、表结构及数据关系。3.3接口设计介绍系统的主要接口及其功能,包括用户接口和管理员接口。第4章系统实现测试阐述基于SpringBoot的家教信息匹配预约系统的实现过程及测试方法。4.1系统实现详细介绍系统的开发环境、实现步骤及关键代码。4.2系统测试方法给出系统的测试方法,包括单元测试、集成测试和性能测试。4.3测试结果分析从功能、性能等方面对测试结果进行详细分析。第5章研究结果优化展示系统实现后的实际效果,并提出优化建议。5.1系统运行效果介绍系统运行后的用户反馈、数据匹配准确率等实际效果。5.2系统优化建议根据系统运行效果,提出针对性的优化建议。第6章结论展望总结研究成果,并展望未来研究方向。6.1研究结论概括基于SpringBoot的家教信息匹配预约系统的主要研究成果。6.2展望指出研究的不足之处,提出未
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值