大家读完觉得有帮助记得关注和点赞!!!
抽象
潜在扩散模型 (LDM) 通常以固定分辨率进行训练,这限制了它们在扩展到高分辨率图像时的能力。 虽然基于训练的方法通过在高分辨率数据集上进行训练来解决这一限制,但它们需要大量数据和大量计算资源,因此不太实用。 因此,免训练方法,特别是基于补丁的方法,已成为一种流行的替代方案。 这些方法将图像划分为多个补丁,并融合每个补丁的去噪路径, 在高分辨率生成方面表现出强大的性能。 然而,我们观察到基于补丁的方法的两个关键问题,我们称之为“补丁级分布偏移”和“补丁单调性增加”。 为了解决这些问题,我们提出了自适应路径追踪(APT),这是一个框架,它结合了统计匹配以确保补丁分布在上采样的潜在中保持一致,并结合了规模感知调度来处理补丁单调性。 因此,APT 可以在高分辨率图像中产生更清晰、更精致的细节。 此外,APT 支持捷径去噪过程,从而加快采样速度,同时将质量下降降至最低。 我们的实验结果证实,APT可以产生更详细的输出,并提高推理速度,为高分辨率图像生成提供了一种实用的方法。
图 1:使用 DemoFusion 与 APT 和不使用 APT 生成高分辨率图像的比较。我们的 APT(自适应路径追踪)通过减少采样步长 (30/50) 实现了卓越的清晰度和细节,展示了高分辨率图像生成的效率和有效性。
1介绍
扩散模型在生成任务中引入了一种新的范式,展示了图像生成方面的卓越能力. 尽管取得了成功,但在高分辨率图像数据集上训练的巨大计算成本也带来了挑战。 潜在扩散模型 (LDM) 利用低分辨率潜在空间来减少计算需求,能够生成分辨率高达10242.
为了提高分辨率,可以建议集成超分辨率模型作为解决方案. 虽然简单,但这种方法缺乏生成高分辨率图像所需的逼真精细细节的能力 或者,可以在目标高分辨率图像数据集上完全训练扩散模型然而,这种方法需要大量的计算资源,而这些资源并不容易获得。
近期研究以免培训的方式解决问题。其中,主流是基于补丁的方法,性能强. 这些方法通过融合预训练大小的多个重叠块的去噪路径来生成高分辨率图像。 尽管多个补丁去噪非常耗时,但每个补丁都会提供复杂的局部细节,这对于高分辨率图像生成至关重要。
杜等人。提出了 DemoFusion,这是一种利用“上采样-扩散-去噪”管道的基于补丁的基础方法。 这种方法在后续研究中被广泛采用. 该管道首先使用传统的非参数插值技术(例如双三次)以预训练的分辨率对潜在物进行上采样。 然后,它通过融合局部和扩张斑块的扩散去噪过程来细化上采样的潜在。 局部补丁包含相邻像素以生成精细细节,而扩张补丁以固定步幅对像素进行采样以增强全局连贯性。 这些补丁在预训练分辨率下与初始潜在补丁具有相同的分辨率。 例如,当642被上采样为1282,局部斑块和扩张斑块均在642在去噪过程中。
尽管其性能强劲,但我们在传统上采样引起的基于补丁的方法中发现了两个关键问题:补丁水平分布偏移和增加 上采样潜在的补丁单调性。 理想情况下,扩张的贴片应以一种既能保持其与初始低分辨率潜在性对齐,又能保持其相互一致性以实现全局一致性的方式进行细化。然而,传统的上采样引入了破坏这两个要求的分布偏移,导致重建不一致并最终降低最终输出。 同时,由于局部斑块内像素相似性增加,其感受野较小,斑块单调性增加。 这种增加的相似性降低了信噪比 (SNR),防止局部斑块自适应扩散和去噪,从而对最终输出产生负面影响。 我们通过玩具示例进一步验证了我们的见解,并在第 3 节中强调了解决这些问题的必要性。
根据我们的观察,我们引入了 APT(一种daptive Path T赛车),它采用了两种简单而有效的技术。 首先,针对像素级分布偏移问题,提出统计匹配;基于我们的观察,潜在统计(例如,均值和方差)在细化分布偏移上采样潜在方面起着关键作用。 具体来说,我们对扩张的斑块应用统计匹配来调整放大的潜在物的平均值和方差,使其统计特性与原始低分辨率潜在物的统计特性保持一致。
其次,为了解决补丁单调性问题,我们在本地补丁采样时引入了 Scale-aware Scheduling。 我们的方法受到 Hoogeboom 等人的启发(简单扩散). Simple Diffusion 依赖于像素冗余随着图像分辨率的增加而增加的洞察力,提出了一种适应整体图像尺寸的分辨率感知测试版调度。 但是,补丁的分辨率保持固定,不会根据基于补丁的框架中的目标高分辨率图像而变化。 因此,Simple Diffusion 无法充分解决固定尺寸补丁中出现的像素冗余变化。 因此,我们提出了一种新的调度策略来解决固定分辨率补丁中的像素冗余问题。
我们提出的技术使APT能够生成高度详细和逼真的高分辨率图像,同时显着降低计算成本,实现了约40%的运行时间提升。 我们提供广泛的定量和定性评估,使用适当的指标和可视化来彻底评估生成的高分辨率图像中的精细细节。 此外,我们还进行全面的消融研究,以更深入地了解每种 APT 成分的效果。
2相关工作
长期以来,高分辨率图像生成一直是生成建模中的关键挑战。最直接的解决方案是使用高分辨率图像训练模型。最近的方法,包括 SDXL[29]和俄罗斯套娃[8],利用高效的架构生成高达10242分辨率,而 Pixart-Σ [5]介绍了一种针对 4K 图像数据集的新颖训练策略。自级联[9]通过将适配器集成到每个 UNet 的层以实现高效的微调来提高分辨率。然而,基于训练的方法经常面临数据稀缺、GPU 成本高以及超出训练分辨率的可扩展性有限的问题。
图2:潜在空间均值和方差对解码输出的影响我们改变了潜在像素分布的平均值和方差。(a) 潜在空间的平均偏移导致解码图像中的颜色偏移。(b) 调整潜在空间方差会改变结果并改变图像频率特性。
为了解决这些限制,利用基础模型的免训练方法引起了人们的关注以支持更高的分辨率。这些方法可分为两组。第一组修改预训练模型架构以直接处理高分辨率噪声输入.虽然它们产生自然的结果,但它仅限于较小的放大因子.
第二组是基于补丁的方法,通过融合预训练分辨率的补丁来生成高分辨率图像。 多扩散[1]和 SyncDiffusion是基于补丁的方法的原始方法。 演示融合[7]通过利用“上采样-漫反射-去噪”循环进一步提高质量,从而增强细节并确保全局一致性。 尽管性能强大,但 DemoFusion 中的朴素上采样通常会导致意外降级,我们将在下一节中详细讨论。
3主要意见
我们的方法由两个关键观察驱动。 第一种是补丁级分布偏移,其中输入潜在像素值的统计变化会影响输出图像的特性。 第二种是斑块单调性增加,这是随着感受野减小而斑块大小保持固定而发生的。 我们确定了影响图像质量的特定潜在空间特征,这些见解成为我们方法的动力。
3.1补丁级别分布转移
我们的主要观察结果之一是,输入潜在的均值和方差在生成图像的质量中起着重要作用。 在 LDM 中,即使这些统计数据的微小变化也会导致输出发生明显变化. 如图 2 所示,调整潜在信号的均值和方差会影响解码图像的质量。
平均转移。如图2(a)所示,移动潜在分布的平均值会影响重建图像中的色彩平衡,从而引入可感知的色移。
方差缩放。 图 2(b) 演示了缩放方差如何影响生成图像中的精细细节和纹理。 较低的方差 (0.5σ) 会导致外观更加模糊,而方差 (2.0σ) 在生成的图像中产生过多的对比度。
这些发现揭示了将扩张斑块的平均值和方差与初始低分辨率潜在斑块的平均值和方差相匹配的重要性。 然而,潜在上采样期间常用的上采样方法(例如,双三次插值)会引入统计偏移,如补充文件的 D.1 部分中进一步讨论的那样。 为了解决这个问题,我们提出了一种归一化技术,可以统计地对齐初始低分辨率的潜在斑块和扩张的斑块,从而减轻失真并保持全局一致性。
图 3:不同感受野的自相似性(像素差异性)的比较。自相似性是在具有固定补丁大小的多种分辨率的图像中测量的。 自相似矩阵表示像素相似性,其中黄色表示较高的值,紫色表示较低的值。 我们通过从 1 中减去归一化 RGB 像素值之间的平均 L2 距离来计算相似度。 随着图像尺寸的增加(从左到右),贴片的感受野减小,平均相似度增加,表明某些区域的像素冗余性更强。
3.2增加贴片单调性
我们的第二个观察结果与像素冗余有关,像素冗余随图像尺寸变化引起的感受野变化而变化。 在图 3 中,我们通过计算自相似矩阵来分析补丁的像素冗余。 如图所示,与具有原始图像(0.54)的较大感受野中的自相似性矩阵相比,自相似性矩阵在较小的感受野(0.57和0.70)中显示出更高的平均相似性值。 像素冗余的增加增强了低频分量,减少了扩散过程中噪声的影响[16],导致质量下降。
这种观察并不是全新的;类似的见解也在 Simple Diffusion 中报道[15],其中指出像素冗余会随着整体图像尺寸的增加而增加。 虽然我们的发现与这一观察结果一致,但它在显着方面存在分歧:我们关注的是固定分辨率补丁的不同感受野内的像素冗余,而不是不同分辨率的整个图像。
为了进一步阐明区别,我们说明了将 Simple Diffusion 和我们的 APT 应用于 DemoFusion 的结果,如图 4 所示。 演示融合[7]本身可以解释为遵循 Simple Diffusion 的观点,因为它使用标准的 beta 调度,前提是对本地补丁进行采样以匹配预训练大小。 然而,它未能考虑到图像尺寸增加带来的像素冗余增加,由于采样过程中噪点效应减弱,导致草丛中的纹理模糊。 我们还表明,天真地应用基于图像分辨率的简单扩散的beta调度修改会导致噪声调度与补丁大小不对齐,从而导致输出图像严重退化,出现不自然的失真。 相比之下,APT 可以达到最佳效果,保留精细的局部细节,而不会引入意外失真。 这表明我们提出的方法与简单扩散之间存在根本区别。
图4:简单扩散与 APT。将 Simple Diffusion 和 APT 应用于 DemoFusion 的结果的定性比较。
图5: APT的总体概念。
(a)在预训练的潜在扩散模型中,扩散过程是根据预训练分辨率(642或 1282) 潜在流形。 (b) 双三次上采样将潜在表示转移到更高分辨率的流形,但不是完全对齐的。 此外,以前基于补丁的方法应用标准的测试版调度,可能无法完全适应更高分辨率的需求。
(c)我们的方法APT利用统计匹配来调整采样斑块的平均值和方差,使潜在斑块与更高分辨率流形更紧密地对齐,并利用尺度感知调度来调整扩散步长,以实现高效的高分辨率潜在生成。APT 支持快捷采样,减少生成高质量所需的去噪步骤数量。
4方法
4.1初步
我们提出的方法建立在LDM之上,利用编码器ℰ和解码器𝒟桥接数据空间和潜在空间。 在此管道中,输入图像x∈ℝh′×w′×3首先被压缩到一个潜在的z∈ℝh×w×c哪里h<h′,w<w′和z=ℰ(x). 然后,通过递增添加高斯噪声来应用扩散过程(即正向过程)T分布步骤从输入潜在分布转变为标准高斯分布,遵循马尔可夫链,表示为:
这里z0=z和zt是每一步的嘈杂潜伏t=1,…,T.βt是方差调度中使用的系数,用于控制噪声水平。该计划通常以启发式方式确定,考虑数据集特征,例如分辨率或多样性[13,34,19]. 扩散模型学习一个反向过程来去噪zT∼𝒩(0,我)返回z0,预测去噪的潜在表示。预测的潜伏z^0,然后被解码到图像空间中,作为x^=𝒟(z^0).
4.2自适应路径追踪
图 5 说明了 APT 的总体概念。在(a)中,我们从预训练的LDM开始,其中扩散过程被设计为在原始预训练分辨率的流形内运行,MtLR.噪声计划和去噪步骤针对这种固定分辨率进行了优化,限制了扩展到更高分辨率的能力。
在(b)中,基于补丁的方法试图通过使用双三次插值等传统技术对初始潜在值进行上采样来适应更高的分辨率。 然而,这种方法会导致潜在偏离高分辨率目标流形,M0HR. 此外,无论像素冗余如何,使用预训练的 beta 调度都会导致上采样的潜在与高分辨率数据流形的连续偏差。 这些错位会导致去噪步骤不理想,最终输出质量下降。
在 (c) 中,我们提出的 APT 通过两个关键技术解决了这些问题。 统计匹配应用于扩张斑块,以调整与初始潜在的均值和方差,使其与M0HR. 这减少了上采样的潜在和目标流形之间的间隙,为去噪过程设置了更好的初始点。 另一方面,缩放感知调度在本地补丁采样期间应用,以根据缩放因子动态调整噪声调度。 这确保了上采样的潜在在整个扩散和去噪步骤中保持所需的信噪比,将噪声潜在的引导至高分辨率流形,ℳtHR. 这两种策略使 APT 能够更有效地细化潜在性。 此外,通过细化初始点和调整步长,APT 实现了快捷采样,从而减少了生成高质量高分辨率图像所需的去噪步骤数量,同时将质量权衡降至最低。
4.3统计匹配
通过将每个扩张斑块的平均值和方差与参考潜在斑块的平均值和方差对齐,统计匹配可以纠正它们的偏移并确保斑块之间的重建一致。 在我们的例子中,输入低分辨率潜在信号用作参考潜在信号。
继往期作品之后[7,27],扩张的斑块大步Sh=Hh和Sw=Ww在时间步长t定义为:
哪里我∈{0,…,Sh−1}和j∈{0,…,Sw−1}.扩张斑块的指数由k=我×Sw+j+1哪里k∈{1,…,Sh×Sw}.
虽然扩张的斑块与参考潜在斑块表现出结构相似性,但它们在统计特性上有所不同,特别是在它们的平均值和方差方面。 我们将通过补充材料中图D中的实验来阐述这一点。 为了减轻常规上采样引起的分布偏移并增强全局相干性,我们将每个扩张的斑块归一化为:
这里μz0和σz0表示z0而μd0k和σd0k代表那些d0k.
4.4规模感知调度
在每个时间步长t,高分辨率潜在zt人力资源分为多个重叠的局部斑块,重叠比例r∈(0,1),定义为:
我们在第 3.2 节中的观察表明,随着每个贴片的感受野减小,每个贴片内的像素冗余p0l增加。 我们调整噪音的强度βt在公式 1 中,根据像素冗余来解决这个问题,其中决定像素冗余的主要因素是放大因子s,因为贴片大小保持固定为低分辨率潜在。 调整定义为:
哪里βT,β0∈ℝ是预定义的标量,并且ηs是控制噪声强度增长速率的参数βt取决于缩放因子s. 如s增长,像素冗余增加,需要更快的噪声增长来保持平衡的信噪比,这反过来又需要相应增加ηs. 增加ηs导致βt,允许更好的去噪,如图 5(c) 所示。 我们在实验中验证了我们提出的方法。
方法 | 2048×2048 (×4) | 4096×4096 (×16) | ||||||||
音乐↑ | 克皮卡↑ | 裂256↓ | 孩子256 | 时间 | 音乐↑ | 克皮卡↑ | 裂256↓ | 孩子256↓ | 时间 | |
SDXL 直接推理 | 58.1 | 0.585 | 57.7 | 0.0297 | 55 秒 | 33.7 | 0.549 | 86.6 | 0.0489 | 13 分钟 |
秤工匠 | 60.8 | 0.619 | 35.5 | 0.0103 | 63 秒 | 38.0 | 0.530 | 54.9 | 0.0103 | 22 分钟 |
福里音阶 | 56.0 | 0.584 | 53.2 | 0.0183 | 127 秒 | 31.8 | 0.515 | 77.0 | 0.0260 | – |
HiDiffuion | 59.9 | 0.607 | 38.0 | 0.0114 | 39 秒 | 39.9 | 0.554 | 127.4 | 0.0787 | 4 分钟 |
演示融合 | 56.6 | 0.587 | 42.5 | 0.0211 | 168 秒 | 38.9 | 0.548 | 33.6 | 0.0117 | 22 分钟 |
演示融合† | 53.3 (-5.8%) | 0.545 (-7.2%) | 46.3 (+8.9%) | 0.0231 (+0.9%) | 106 秒 | 36.9 (-0.5%) | 0.517 (-5.7%) | 37.2 (+10.7%) | 0.0133 (+13.7%) | 13 分钟 |
演示融合†+APT | 59.0 (+4.2%) | 0.632 (+7.7%) | 37.1 (-12.7%) | 0.0160 (-24.1%) | 106 秒 | 40.3 (+3.6%) | 0.598 (+0.9%) | 31.5 (-6.3%) | 0.0104 (-11.1%) | 13 分钟 |
AccDiffusion | 56.9 | 0.569 | 36.5 | 0.0174 | 173 秒 | 38.7 | 0.536 | 33.7 | 0.0113 | 23 分钟 |
AccDiffusion† | 50.5 (-11.4%) | 0.516 (-9.3%) | 46.1 (+26.3%) | 0.0230 (+32.2%) | 109 秒 | 36.5 (-5.7%) | 0.485 (-9.5%) | 38.0 (+11.1%) | 0.0127 (+12.4%) | 14 分钟 |
AccDiffusion†+APT | 56.6 (-0.5%) | 0.595 (+4.6%) | 37.6 (+3.0%) | 0.0175 (+0.0%) | 109 秒 | 40.3 (+4.1%) | 0.557 (+3.9%) | 33.8 (+0.3%) | 0.0131 (+14.9%) | 14 分钟 |
表1: 定量比较结果,分辨率为 2048×2048 和 4096×4096 的各种模型。MUSIQ 和 CLIPIQA 评估感知质量和语义一致性,而裂256和孩子256测量精细细节质量。
推理时间也包括在内。†表示模型执行快捷方式采样时有 30 个步骤,而基线为 50 个步骤。FouriScale 的推理时间未在×16 由于我们的 A5000 GPU 内存不足。
5实验
5.1实验设置
模型。为了评估 APT 在改进基于补丁的方法的“上采样-扩散-去噪”循环方面的有效性,我们将 APT 集成到 DemoFusion 中[7]和 AccDiffusion[27],并将其性能与基线进行比较。 我们还使用几种免训练方法验证我们的模型,包括 SDXL[29]、秤工[10]、FouriScale[17]和 HiDiffusion[40],提出了基于补丁的替代解决方案。 为了公平比较,我们使用 SDXL 作为所有模型的基本扩散模型。
数据。由于常用的基准测试如COCO[26]和莱恩[31]具有较低分辨率的图像(通常低于 1K),它们不足以评估高分辨率图像质量。 因此,我们使用 OpenImages 中的 1K 随机采样图像构建了一个图像-标题配对测试集[23],分辨率均超过 3K。 图像标题是使用 BLIP2 生成的[25].
指标。我们采用 MUSIQ[20], CLIPIQA[36],裂c和孩子c用于定量评估指标。 MUSIQ 和 CLIPIQA 是符合人类偏好的 NRIQA 指标,用于评估整体图像质量[37].裂c和孩子c通过分析 Chai 等人之后的裁剪补丁来关注精细细节[4]. 我们想指出的是,我们不使用 FID[12]和 KID[2]指标,因为它们不足以测量高分辨率图像质量。这在之前的研究中已经强调过[29,22]我们在补充材料中提供了更详细的讨论。 此外,我们还使用 NVIDIA RTX A5000 测量推理时间以验证效率。
图6: 定性比较。 跨多种方法对高分辨率生成进行可视化比较×4和×16尺度。 建议放大以检查精细细节和图像保真度的差异。
5.2定量结果
我们提供了一组定量实验来评估APT的效果,如表1所示。这些模型大致分为两类:基于补丁(前 4 个模型)和基于补丁(后 6 个模型)方法。
在非基于补丁的组中,HiDiffusion表现出相对较快的推理时间。然而,它的性能并不一致,随着目标分辨率的增加,它会出现明显的下降。这一缺点在下面的定性分析中变得更加明显。同样,虽然 ScaleCrafter 在 2K 分辨率下表现良好,但随着分辨率的变大,它的所有指标都会显着下降。
在基于补丁的组中,我们通过两个广泛使用的基线(DemoFusion 和 AccDiffusion)证明了 APT 的有效性。我们比较了他们朴素的快捷方式版本的性能—— 将去噪步骤从 50 步减少到 30 步——使用 APT 的版本。虽然朴素的时间步长缩短会加快推理时间,但它们会导致所有指标的性能大幅下降。相比之下,APT 不仅保留了推理速度的提升(快了约 40%),而且还减轻了性能下降,甚至在许多情况下超过了原始基线。
5.3定性结果
在图 6 中,我们分析了以对象为中心的场景和面向景观的场景。 我们将 HiDiffusion 作为非基于补丁的模型。虽然它在 2K 分辨率下保持整体性能,但它面临可扩展性限制,并在 4K 分辨率下产生严重的伪影。 DemoFusion 和 AccDiffusion 可在所有分辨率下有效地捕获全局内容和精细细节。然而,这些框架中的上述两个关键问题引入了扭曲,例如项链模糊和阳台扶手上的不自然纹理。通过集成 APT,这些限制得到了缓解。DemoFusion+APT 和 AccDiffusion+APT 都增强了内容和纹理中的细粒度细节。
5.4消融研究
5.4.1单个组件
为了评估统计匹配(SM)和规模感知调度(SaS)的个体贡献,我们评估了将这些组件合并到DemoFusion中的模型,如表2所示。每个组件在所有指标上都产生了明显的改进,组合的 APT 模型提供了最佳的整体性能,超越了原始 DemoFusion,同时还减少了推理时间。图7中的定性结果进一步强调了每种技术的有效性及其兼容性。此外,APT 在不同的基线 AccDiffusion 上表现良好,如图 8 所示。
5.4.2相关性η和缩放因子
检查计划参数之间的关系η和缩放因子,我们进行了消融研究,如图9所示。 本研究探讨了我们第 4.4 节中的假设,该假设表明最佳η值应与缩放因子相关,增加噪声强度以解决更高分辨率下增加的像素冗余问题。 我们的结果证实了这一假设,表明随着比例因子的增加,最优η价值也会上升,实现每种分辨率的最佳性能。 这种适应性使 APT 能够动态调整噪声计划,在不同尺度上保持最佳信噪比 (SNR),这对于在不同分辨率级别下保持高图像质量至关重要。
音乐↑ | 克皮卡↑ | 裂256↓ | 孩子256↓ | 时间 | |
---|---|---|---|---|---|
演示融合[7](50/50) | 43.42 | 0.549 | 40.72 | 0.019 | 11 分钟 |
演示融合 (30/50) | 38.32 | 0.476 | 49.10 | 0.022 | 6 分钟 |
+ 仅限 SM | 43.83 | 0.557 | 38.92 | 0.016 | 6 分钟 |
+ 仅限 SaS | 45.55 | 0.587 | 40.80 | 0.018 | 6 分钟 |
+ SM + SaS (APT)= | 46.54 | 0.606 | 38.24 | 0.007 | 6 分钟 |
表2:APT组分的消融研究。SM表示统计匹配,SaS表示规模感知调度。
图7:APT组分消融定性研究结果。与 DemoFusion 相比,我们方法中每个组分(SM 和 SaS)的效果。 每种方法的存在都显示在每张图像下方,显示其对图像质量的影响。
5.4.3作物大小在基于补丁的指标中的影响
如图 10(a) 所示,我们评估了具有不同补丁大小的模型10242自2562. 在FID方面1024、DemoFusion+APT 和 DemoFusion 产生类似的全局质量。 然而,随着裁剪尺寸的减小和更精细的细节的强调,差异变得更加明显。 这一趋势表明,我们的方法不仅有效地细化了细节,而且保持了全局的连贯性。
5.4.4快捷时间步长
我们给出了图10(b),它定量地比较了不同快捷时间步长的不同方法。 随着时间步长的增加,DemoFusion 和 DemoFusion+APT 都显示出改进的性能。 然而,超过 30 个时间步长,改进就变得微不足道。 鉴于这一趋势,我们得出结论,30 个时间步长提供了效率和性能之间的最佳权衡。
图 8: APT 应用于 AccDiffusion 的定性结果。
图 9: 调度参数关系实验η和比例因子。结果表明,最优η随着缩放而增加,确认需要动态噪声调度以保持不同分辨率的图像质量。
图 10:基于补丁的指标和分辨率 3K 下性能的作物大小和快捷时间步长的消融研究。
6结论
我们介绍了 APT(自适应路径追踪),这是一种在潜在扩散模型中生成高分辨率图像的有效方法。 我们发现,传统的上采样会改变潜在的均值和方差,导致意外的图像失真,而固定尺寸斑块中像素冗余的增加会破坏扩散过程中预训练的信噪比。 通过统计匹配和尺度感知调度,APT 解决了这些问题,优化了跨尺度的噪声控制。 APT 还支持快捷采样,以提高推理速度而不牺牲质量。 我们希望 APT 为高分辨率图像生成提供实用的解决方案。
局限性和未来工作
虽然 APT 在高分辨率图像生成方面取得了重大进步,但它也有一些局限性,值得进一步探索。
(1)尽管APT将采样时间缩短了约40%,但整体推理速度仍然是实时或大规模应用的瓶颈,特别是在生成超高分辨率图像时。
(2)APT作为一种免训练框架,依赖于骨干扩散模型的能力,因此无法生成超越预训练模型固有质量的补丁级图像。
(3)尽管在图像保真度和精细细节方面有所提高,但APT与以前的方法一样,在复杂或高度重复的场景中仍然会遇到小物体重复的问题。
为了克服这些限制,未来的工作可以集中在优化补丁数量或解决渐进式上采样过程的需求,以在不影响质量的情况下进一步提高效率。此外,在推理过程中集成轻量级学习机制或自适应细化技术可以帮助解决补丁级质量依赖性并减少重复伪影。探索将免训练方法与最少微调相结合的混合方法也可能为将 APT 扩展到实时应用程序并提高具有挑战性的图像场景中的鲁棒性提供一条有前途的途径。
B实验详情
B.1数据
否定提示。 我们使用固定的负面提示,“模糊、丑陋、重复、绘制不良、变形、马赛克” ,以确保生成高质量、高分辨率的图像。
测试集。 我们构建了一个测试集,用于主要比较,如表 1 所示。在主论文中。该测试集由一个图像-标题配对数据集组成,其中包含 1,000 张来自 OpenImages 的随机采样图像,分辨率均超过 3K。为了匹配测试图像的 1:1 分辨率比,我们根据较短的边长裁剪中心处的原始图像。裁剪图像的标题是使用 BLIP2 生成的.
验证集。 我们构建了一个验证集并将其用于消融研究,以有效地评估我们提出的方法。与测试集类似,验证集由一个图像-标题配对数据集组成,其中包含 400 张来自 OpenImages 的随机采样图像,分辨率均超过 3K。 为确保公平性,验证集中的图像不包含在测试集中,作为超参数调整(例如η和快捷时间步)可能会引入偏差。
我们对验证集进行消融研究,以评估APT组件的有效性,包括最佳选择η用于不同的缩放因子和快捷时间步长配置的分析。为了提高效率和可靠性,所有验证均使用以 3K 分辨率生成的图像进行。
我们提出的方法 APT 不断改进 DemoFusion跨测试集和验证集。这些结果表明,尺度自适应调度和统计匹配有助于稳定提高高分辨率图像生成的性能。
B.2基于补丁的指标
为了评估生成的高分辨率图像的精细细节,我们利用了 FIDc和 KIDc ,其中分数是在较小的裁剪补丁上计算的,而不是在 299 处全局调整大小的图像上计算的×299 决议。
有关更多详细信息,补丁被裁剪为256×256,确保与 FID 的兼容性和 KID[2]计算。 如本文图10(a)所示,模型性能趋势在不同作物大小下保持稳定。 作物位置是随机确定的,但在基本事实、相应的基线和我们的结果中是固定的,以便进行公平比较。 我们使用 50,000 个补丁来计算 FIDc和 KIDc,为评估高分辨率图像生成中的精细细节提供了强大的指标。
C其他实验
为了验证统计匹配和尺度感知调度的有效性,我们使用 400 个图像字幕对的验证集进行了广泛的消融研究。
C.1统计匹配消融研究
为了验证 SM 的有效性,我们还利用了另一种上调方法,即最近邻 (NN)。 由于 NN 复制参考潜在的像素值进行放大,因此上采样潜在的扩张斑块与参考潜在的完全相同,这意味着 NN 上采样潜在的扩张斑块的均值和方差与参考潜在的均值和方差相同。 我们将快捷方式采样结果与双三次上采样(DemoFusion)、双三次上采样后的SM和基于DemoFusion的NN上采样进行了比较[7]框架。
如表A所示,不仅双三次上采样后的SM在FID中显示出比朴素双三次上采样的显着改善256和 KID256,而且 SM 通过 NN 上采样比朴素双三次上采样获得更好的分数。 这一改进表明,将统计因素d0k使用引用潜在有助于更好地初始化z0人力资源,它在扩散模型中起着至关重要的作用,如第 D.2 节所示。
方法 | 裂256↓ | 孩子256↓ | |
---|---|---|---|
2048 x 2048 | 演示融合 (30/50) | 44.22 | 0.0198 |
SM 带 NN | 39.64 | 0.0161 | |
SM 带双三次 | 39.61 | 0.0162 | |
3072 x 3072 | 演示融合 (30/50) | 47.70 | 0.0207 |
SM 带 NN | 40.92 | 0.0156 | |
SM 带双三次 | 39.97 | 0.0156 | |
4096 x 4096 | 演示融合 (30/50) | 41.50 | 0.0158 |
SM 带 NN | 38.34 | 0.0130 | |
SM 带双三次 | 37.28 | 0.0127 |
表A:统计匹配消融研究的定量结果。该表显示了针对三种分辨率进行的消融研究的结果。每个指标的最高分以粗体突出显示,而第二好的分数则以下划线突出显示。
C.2规模感知调度的消融研究
η | 2048×2048 年(比例=2.0) | 3072×3072(比例=1.5) | 4096×4096(比例=1.3) | |||
---|---|---|---|---|---|---|
裂299↓ | 孩子299↓ | 裂299↓ | 孩子299↓ | 裂299↓ | 孩子299↓ | |
6 | 43.10 | 0.0188 | 44.62 | 0.0187 | 41.05 | 0.0151 |
5.5 | 41.20 | 0.0174 | 41.92 | 0.0172 | 38.93 | 0.0140 |
5 | 39.33 | 0.0162 | 39.97 | 0.0156 | 36.72 | 0.0125 |
4.5 | 38.08 | 0.0151 | 38.27 | 0.0146 | 35.84 | 0.0124 |
4 | 36.98 | 0.0140 | 37.30 | 0.0139 | 35.32 | 0.0119 |
3.5 | 36.32 | 0.0136 | 36.50 | 0.0133 | 35.06 | 0.0118 |
3 | 35.26 | 0.0129 | 36.25 | 0.0131 | 35.73 | 0.0122 |
2.5 | 34.88 | 0.0122 | 36.34 | 0.0132 | 37.36 | 0.0136 |
2 | 35.13 | 0.0119 | 37.20 | 0.0135 | 38.42 | 0.0138 |
1.5 | 35.45 | 0.0121 | 38.42 | 0.0144 | 41.02 | 0.0152 |
1 | 35.89 | 0.0120 | 40.28 | 0.0152 | 44.38 | 0.0169 |
表B: Scale-aware Scheduling消融研究的定量结果。该表显示裂299和孩子299不同的值η跨各种升级比例的设置。每个分辨率的最佳分数以粗体突出显示,第二好的分数带有下划线。
图A: beta调度和对数信噪比的变化。这些图显示了如何βt(上)和对数(信噪比)(下)在不同时间步长下演变η值,突出了它们对扩散过程中噪声调度和信噪比衰减的影响。实线表示预训练扩散模型的默认 beta 调度。
为了研究上采样规模和最佳 β 调度之间的关系,我们进行了一项以参数为重点的消融研究η,控制扩散过程中的噪声调度,如图A所示。由于 APT 遵循“高档-扩散-去噪”循环 [7],我们凭经验寻找最优η中间升级步骤中的值:2.0×(1024→2048)1.5×(2048→3072),以及1.3×(3072→4096).
表B中的结果 评估 裂299和孩子299,特别关注裂299和孩子299捕捉精细细节质量。 从结果来看,最优η对于2×, 3 表示1.5×,3.5 表示1.3×. 这些值表明,随着上采样规模的减小,较慢的信噪比衰减变得更加有效,从而平衡了细节保留和稳定性。
此外,如图B所示,我们的研究结果还有助于在噪声和细节权衡之外进行质量增强。 这项研究强调了在扩散模型中定制 beta 调度以考虑输入中的像素冗余的重要性,这与上采样规模直接相关。 由于每个 η根据经验确定,它为每个量表提供了稳健的值,使其适用于未来的工作。
图B: 消融研究对规模感知调度的定性结果。图比较了不同视觉效果η三个升级比例(比例 = 2.0、1.5、1.3)的值。每行代表特定尺度的结果,显示从较高的噪声输出开始的进展η值来过度平滑输出,在较低处丢失细节η值。红色框突出显示用于放大细节检查的区域,说明了降噪和精细细节保留之间的权衡。黑匣子突出显示最佳结果η对于每个量表。
C.3快捷时间步长
我们还对快捷时间步长进行了消融研究,以找到最佳时间步长,以保持图像保真度,同时提高效率。 由于我们的管道基于渐进式上采样,因此在第一阶段(2048×2048)。 如图C所示,通过使用30多个时间步长(总共50个时间步长)的扩散和去噪过程恢复的生成图像的质量是收敛的,尽管使用少于30个时间步长生成的图像质量显示出显着的下降。
图C:与快捷时间步长进行定性比较。该图说明了不同的快捷时间步长(20/50 到 40/50 步)对生成图像的视觉质量的影响。随着快捷方式时间步长数量的减少,图像质量会逐渐下降,出现明显的伪影,精细细节的清晰度降低。结果突出了采样效率和图像保真度之间的权衡。
D统计匹配的详细动机
我们的主要观察集中在补丁级分布变化上。在主论文的第 4.3 节中,我们研究了统计因素(即均值和方差)的变化如何导致图像质量下降。我们提出了一种归一化方法,即统计匹配 (SM),以对齐参考潜在和上采样潜在的扩张斑块之间的均值和方差,从而有效地处理这些失真。
在本节中,我们通过介绍统计因素(即、均值和方差)上采样的潜在 z0人力资源∈ℝH×W×c与原始潜伏者不同z0∈ℝh×w×c哪里H>h和W>w以及差异如何影响扩散过程。 我们专注于扩张的斑块d0k∈ℝh×w×c从z0人力资源哪里k是修补程序的索引。
D.1扩张斑块中的分布偏移
为了验证分布偏移,我们从中提取参考潜在值和扩张斑块的平均值和方差×4双三次上采样潜在。 为了生成参考潜在物,我们利用测试集中的各种提示。
在图D中,顶部的直方图显示,与相应的参考潜在斑块相比,每个扩张斑块的方差都减少了。减少是由插值的属性引起的(即,双三次),通过参考像素的中间值计算新的像素值。 此外,底部的直方图显示,与相应参考潜在斑块的平均值相比,每个扩张斑块的平均值发生了变化。这些实验结果证明了将SM施加到扩张斑块上的必要性,以使其更好地初始化为扩散模型的输入。
图D:上采样后均值和标准差的分布。红线代表参考潜在值的平均值和标准差,突出显示了上采样过程引入的统计参数的偏差。由于上采样,可以发现每个因素的变化。
D.2潜在方差与扩散过程的关系
在这里,我们解释了潜在方差对扩散过程的影响。 如第 D.1 节所述,由于基于插值的上采样,扩张斑块与更高分辨率潜在的方差减小。这些变化会影响生成过程中与扩散路径的连续偏差。 我们演示了如何发生偏差,如下所示。
让z0′=1kz0成为潜在的缩放版本z0哪里k∈ℝ, s.t. k≥1,是减少方差的缩放因子。这种缩放的潜在z0′影响整个扩散过程,导致嘈杂的潜伏zt′在每个时间步长t=1,…,T定义为:
哪里βt是每个时间步长的噪声水平。 信号强度1−βtkzt降低,破坏了预先设计的 SNR 和方差保留. 它还会导致模型偏离其预期的测试时间表,从而导致输出稳定性较差和质量较低。
E将简单扩散应用于基于补丁的方法
我们的方法与简单扩散不同,它专注于固定分辨率下的像素冗余及其对噪声调度的影响。 简单扩散表明,扩散模型应根据分辨率采用不同的噪声调度。 给定信噪比(SNR) 的潜在z0∈ℝs×s×c,一个更高分辨率的潜在Z0∈ℝS×S×c应该遵循SNR(t)×(sS)2哪里t是时间步长。
有两种方法可以将简单扩散应用于基于补丁的高分辨率图像生成。人们将每个补丁视为一个独特的图像,使 DemoFusion 与这种方法本质上兼容。另一个将补丁视为更高分辨率图像的一部分,允许调整(sS)2因子(例如14对于 2K 图像)。
主论文中的图 4 显示了这两种情况的结果。DemoFusion 与第一种方法保持一致,因为它保留了固定大小的本地补丁的预训练测试版调度。然而,这会导致扭曲的精细细节(例如,草纹理)。或者,根据 Simple Diffusion(称为 DemoFusion+Simple Diffusion)修改 DemoFusion 的测试版调度,可以增强草地等精细细节,但会引入不自然的伪影,从而显着降低视觉质量。
相比之下,DemoFusion+APT 实现了改进的结果,保留了精细的局部细节而不会引入失真。这凸显了我们方法的必要性,表明噪声调度策略应该考虑高分辨率图像生成中的像素冗余。
裂 | 孩子 | |
---|---|---|
SDXL+双立方 | 82.92 | 0.0065 |
SDXL+兰佐斯 | 82.92 | 0.0065 |
演示融合 | 86.24 | 0.0083 |
演示融合 (30/50) | 85.03 | 0.0080 |
演示融合+APT | 87.18 | 0.0091 |
表C: 分析FID和KID,生成高分辨率图像。
F高分辨率图像的FID分析
我们的方法显示 FID 和 KID 的性能略有下降。然而,正如主要论文中所讨论的,我们认为这些指标不适合评估高分辨率图像生成模型。 由于 InceptionNet 是 FID 和 KID 的基础嵌入模型,因此可以处理大小为 299 的图像×299,我们的实验中评估的高分辨率图像被下采样最多132时间,导致大多数高频细节的丢失。
为了进一步支持我们的主张,我们参阅表C。值得注意的是,DemoFusion (30/50) 的 FID 和 KID 分数比 DemoFusion (50/50) 更好,尽管其图像更模糊且细节较少。这种模式与使用基于朴素插值的方法对超分辨率结果的观察结果一致,其中该方法获得了最佳的 FID 和 KID 分数。 此外,鉴于细节质量的明显质量差异,如图 1 所示。和图 6。在主要论文中,我们认为 FID 和 KID 不应被视为我们任务的主要指标。 这种趋势在之前的几部作品中也有报道 [29,22].
G其他定性结果
图E:APT 应用于 AccDiffusion 的定性结果。
该图比较了 AccDiffusion(30/50 步)和AccDiffusion 结合 APT 生成的高分辨率图像的视觉质量。在这两种分辨率下,APT 都能增强精细细节并减少视觉伪影,如放大区域中突出显示的那样。
图F:极致分辨率的示例。由 DemoFusion 和 APT 以 8K 分辨率生成图像,提示“金色的光芒冲破暴风雨的云层,照亮宁静的海浪和装饰着贝壳和涟漪的纹理沙子,8k”。