Stable Diffusion参数 - 步数、采样方法、提示词引导系数

最新推荐文章于 2025-05-16 11:46:32 发布

原创最新推荐文章于 2025-05-16 11:46:32 发布 · 1.6k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#stable diffusion

Stable Diffusion教程专栏收录该内容

9 篇文章

订阅专栏

1 迭代步数

一张图片的生成它需要多次迭代才能达到我们想要的一个效果。
理论上迭代步数越高，那生成的最终的这个图片的效果就越好，它质量更高。

实际在应用的时候迭代步数达到20以上，它的效果在提升的就不是十分明显了，而更多的迭代步数，就意味着更长的时间。

所以我们要综合考虑，图片能达到的效果，以及它的效率。
那么对于大多数模型来说呢，20-30步就已经足够用了。
那如果你想要求图片更加精细的话，你可以尝试30-40步。

去官网下载大模型，那你可以找到这个模型的作者的页面，一般作者会告知你，推荐什么样的参数来使用。比如：

像上面这个模型作者就推荐30，直接按照作者说明的来选择也是可以的，因为作者经过了大量的测试。

可以采用自己的实用设置来查看什么步数适合自己，在一个范围内选择几个数值来批量生成一下
对比一下效果，这样也可以找到，你认为比较合适的迭代步数

2 采样方法

Sampler（采样器/采样方法）选择使用哪种采样器。

Euler a（Eular ancestral）可以以较少的步数产生很大的多样性，不同的步数可能有不同的结果。而非 ancestral 采样器都会产生基本相同的图像。
DPM 相关的采样器通常具有不错的效果，但耗时也会相应增加。
Euler 是最简单、最快的 Euler a 更多样，不同步数可以生产出不同的图片。但是太高步数 (>30) 效果不会更好。
DDIM 收敛快，但效率相对较低，因为需要很多 step 才能获得好的结果，适合在重绘时候使用。
LMS 是 Euler 的衍生，它们使用一种相关但稍有不同的方法（平均过去的几个步骤以提高准确性）。大概 30 step 可以得到稳定结果
PLMS 是 Euler 的衍生，可以更好地处理神经网络结构中的奇异性。
DPM2 是一种神奇的方法，它旨在改进 DDIM，减少步骤以获得良好的结果。它需要每一步运行两次去噪，它的速度大约是 DDIM 的两倍，生图效果也非常好。但是如果你在进行调试提示词的实验，这个采样器可能会有点慢了。
UniPC 效果较好且速度非常快，对平面、卡通的表现较好，推荐使用。

不同采样步数与采样器之间的关系：

3 CFG Scale（提示词相关性）

图像与你的提示的匹配程度。增加这个值将导致图像更接近你的提示，但它也在一定程度上降低了图像质量。可以用更多的采样步骤来抵消。过高的 CFG Scale 体现为粗犷的线条和过锐化的图像。一般开到 7~11。 CFG Scale 与采样器之间的关系

生成批次每次生成图像的组数。一次运行生成图像的数量为“批次* 批次数量”。
每批数量同时生成多少个图像。增加这个值可以提高性能，但也需要更多的显存。大的 Batch Size 需要消耗巨量显存。若没有超过 12G 的显存，请保持为 1。
尺寸指定图像的长宽。出图尺寸太宽时，图中可能会出现多个主体。1024 之上的尺寸可能会出现不理想的结果，推荐使用小尺寸分辨率+高清修复（Hires fix)。
种子种子决定模型在生成图片时涉及的所有随机性，它初始化了 Diffusion 算法起点的初始值。

理论上，在应用完全相同参数（如 Step、CFG、Seed、prompts）的情况下，生产的图片应当完全相同。

通过勾选 "Hires. fix " 来启用。默认情况下，文生图在高分辨率下会生成非常混沌的图像。如果使用高清修复，会型首先按照指定的尺寸生成一张图片，然后通过放大算法将图片分辨率扩大，以实现高清大图效果。最终尺寸为（原分辨率*缩放系数 Upscale by)。

放大算法中，Latent 在许多情况下效果不错，但重绘幅度小于 0.5 后就不甚理想。ESRGAN_4x、 SwinR 4x 对 0.5 以下的重绘幅度有较好支持。
Hires step 表示在进行这一步时计算的步数。
Denoising strength 字面翻译是降噪强度，表现为最后生成图片对原始输入图像内容的变化程度。该值越高，放大后图像就比放大前图像差别越大。低 denoising 意味着修正原图，高 denoising 就和原图就没有大的相关性了。一般来讲阈值是 0.7 左右，超过 0.7 和原图基本上无关，0.3 以下就是稍微改一些。实际执行中，具体的执行步骤为 Denoising strength * Sampling Steps。
面部修复修复画面中人物的面部，但是非写实风格的人物开启面部修复可能导致面部崩坏。

4 面部修复

如果生成真人的话，建议把面部修复打开，这样能让你的呃生成的图片，面部更加的理想，平铺图不用考虑高分辨率修复，这个是在我们后期放大图片的时候可以用的

5 宽和高

一般来说我们生成图片的时候选择，512x512比较安全，还有一个就是你可以参考作者的建议
一般作者他训练大模型的时候，他也会有一个倾向的图片的比例，所以根据作者的建议，你可以按照他提供的这个分辨率来生成你的图。

6 提示词引导系数

一般我们选择7是最多的，对于大多数模型来说，选择7它都是比较啊保险的一个选项。
一般来说不应该超过10以上，你可以尝试，超过10以上的话，其实他就不会说，忠实的按照你的提示词来生成了，可能会出现一些奇怪的物体。
那么如果太小的话呢？
可能画面跟你的提示词的相关性，又不够一般来说我们选择7比较保险，那么按照我当前的模型
根据作者的建议呢，他是建议5