论文解读之High-Resolution Image Synthesis with Latent Diffusion Models(Stable Diffusion)

本文是Stable Diffusion等一系列扩散模型的里程碑,主要解决的问题是Diffusion模型在原始的像素空间中需要的计算资源过多的问题。

提炼本文创新如下:

一、隐空间(低维向量空间)

引入了一个与图像空间感知上等同的隐空间,使用自编码器进行隐空间和像素空间的变换,忽略了一些对于感知无关的信息,进行加噪去噪都是在这个空间中进行的。

因此,能够显著减少计算复杂度。这样做有几个好处:

1.避免高维度图像空间,可以在低维度空间(去除了一些高频特征)。

2.利用了U-Net的归纳偏好(即卷积操作的局部性和平移等变性),对有空间结构的数据很有效,因此能够减少之前方法中会降低质量的压缩方法的需要。

3.得到了一个可以被用于通用目标的压缩模型,这种模型可以被用于训练一些下游的产生模型,比如单个图像的Clip生成。

一、

具体做法:

给定一个输入,使用编码器将输入图像的特征进行编码到一个按比例缩小的小空间,然后再用解码器还原其特征。

经过后续的验证,在这个潜在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值