什么是扩散模型（Diffusion Models），为什么它们是图像生成的一大进步？

最新推荐文章于 2025-06-29 00:42:02 发布

原创

最新推荐文章于 2025-06-29 00:42:02 发布 · 1.5w 阅读

122 ·

CC 4.0 BY-SA版权

本文介绍了扩散模型在图像生成领域的应用，它们克服了GANs的一些瓶颈，如图像多样性不足和模式崩溃问题。扩散模型通过正向和反向扩散过程从噪声中恢复图像，最近在图像合成任务上展现出优越性能。潜在扩散模型（LDM）结合了GANs的感知能力、扩散模型的细节保留和transformer的语义理解，提供了一种更高效、多样化的图像生成方法，同时保留了数据的语义结构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

也许过去十年在计算机视觉和机器学习方面的突破是GANs(生成式对抗网络)的发明——这种方法引入了超越数据中已经存在的内容的可能性，是一个全新领域的敲门砖，现在称为生成式建模。然而，在经历了一个蓬勃发展的阶段后，GANs开始面临平台期，其中大多数方法都在努力解决对抗性方法面临的一些瓶颈。这不是单个方法的问题，而是问题本身的对抗性。GANs的一些主要瓶颈是:

图像生成缺乏多样性
模式崩溃
多模态分布问题学习
训练时间过长
由于问题表述的对抗性，不容易训练

还有另一系列基于似然的方法(例如，马尔可夫随机场)，它已经存在了相当长的一段时间，但由于对每个问题的实现和制定都很复杂，因此未能获得重大影响。其中一种方法是“扩散模型”——一种从气体扩散的物理过程中获得灵感的方法，并试图在多个科学领域对同一现象进行建模。然而，在图像生成领域，它们的应用最近变得越来越明显。主要是因为我们现在有更多的计算能力来测试复杂的算法，这些算法在过去是不可实现的。

一个标准扩散模型有两个主要的过程域:正向扩散和反向扩散。在前向扩散阶段，图像被逐渐引入的噪声污染，直到图像成为完全随机噪声。在反向过程中，利用一系列马尔可夫链在每个时间步逐步去除预测噪声，从而从高斯噪声中恢复数据。