描述性能量模型、判别模型与描述模型的等价性
立即解锁
发布时间: 2025-09-02 01:13:23 阅读量: 12 订阅数: 27 AIGC 

# 描述性能量模型、判别模型与描述模型的等价性
## 描述性能量模型
### 基于流的参考和潜在空间采样
流基模型具有显式的归一化密度,并且可以直接采样,它兼具密度估计和采样器的功能。可以使用流基模型 $q_α$ 作为描述性模型或基于能量的模型(EBM)的参考分布,并在潜在空间中执行马尔可夫链蒙特卡罗(MCMC)采样。
具体来说,模型形式如下:
\[p_{\theta}(x) = \frac{1}{Z(\theta)}\exp(f_{\theta}(x))q_{\alpha}(x)\]
这里的 $p_{\theta}(x)$ 是对 $q_α$ 的修正或细化,也可以看作是对 $q_α(x)$ 的指数倾斜。$f_{\theta}(x)$ 是一个自由形式的卷积神经网络,用于对修正进行参数化。整体的负能量为 $f_{\theta}(x) + \log q_{\alpha}(x)$。
在潜在空间 $z$ 中,设 $p(z)$ 是在 $p_{\theta}(x)$ 下 $z$ 的分布:
\[p(z)dz = p_{\theta}(x)dx = \frac{1}{Z(\theta)}\exp(f_{\theta}(x))q_{\alpha}(x)dx\]
由于 $q_{\alpha}(x)dx = q_0(z)dz$,可得:
\[p(z) = \frac{1}{Z(\theta)}\exp(f_{\theta}(g_{\alpha}(z)))q_0(z)\]
$p(z)$ 是对先验噪声分布 $q_0(z)$ 的指数倾斜,形式简单,不涉及 $g_α(z)$ 的雅可比矩阵或逆运算。
相比于直接对 $p_{\theta}(x)$ 进行采样,我们可以对 $p(z)$ 进行采样。因为 $q_α(x)$ 是多模态的,而 $q_0(z)$ 是单模态的,$p(z)$ 是对 $p_0(z)$ 的修正,其多模态程度比数据空间中的 $p_{\theta}(x)$ 要低很多。采样得到 $z$ 后,可通过 $x = g_{\alpha}(z)$ 生成数据。
整个 MCMC 采样方案是 Hoffman 等人提出的中性传输 MCMC 的一个特例。我们使用哈密顿蒙特卡罗(HMC)从 $p(z)$ 中采样,并通过 $g_α$ 将样本映射到数据空间,然后通过最大似然估计(MLE)学习参数 $\theta$。
### 扩散恢复似然
受基于扩散模型的启发,有人提出了扩散恢复似然方法来解决直接在数据集上训练描述性模型或 EBM 的挑战。具体步骤如下:
1. 假设存在一系列噪声观测 $x_0, x_1, \cdots, x_T$,满足:
\[
\begin{cases}
\mathbf{x}_0 \sim p_{data}(\mathbf{x}) \\
\mathbf{x}_{t + 1} = \sqrt{1 - \sigma_{t + 1}^2}\mathbf{x}_t + \sigma_{t + 1}\epsilon_{t + 1}, & t = 0, 1, \cdots, T - 1
\end{cases}
\]
其中,缩放因子 $\sqrt{1 - \sigma_{t + 1}^2}$ 确保序列是观测样本和高斯白噪声之间的球面插值。
2. 令 $\mathbf{y}_t = \sqrt{1 - \sigma_{t + 1}^2}\mathbf{x}_t$,并假设在扰动数据上存在一系列边缘 EBM:
\[p_{\theta}(\mathbf{y}_t) = \frac{1}{Z_{\theta, t}}\exp(f_{\theta}(\mathbf{y}_t, t))\]
这里的 $f_{\theta}(\mathbf{y}_t, t)$ 由一个依赖于 $t$ 的神经网络定义。
3. 这些边缘 EBM 可以通过恢复似然来学习,恢复似然定义为反转扩散过程的条件分布:
\[p_{\theta}(\mathbf{y}_t|\mathbf{x}_{t + 1}) = \frac{1}{\tilde{Z}_{\theta, t}(\mathbf{x}_{t + 1})}\exp(f_{\theta}(\mathbf{y}_t, t) - \frac{1}{2\sigma_{t + 1}^2}\|\mathbf{x}_{t + 1} - \mathbf{y}_t\|^2), \quad t = 0, 1, \cdots, T - 1\]
与标准的 EBM 最大似然估计相比,通过扩散恢复似然学习边缘 EBM 只需要从上述条件分布中采样,由于额外的二次项,条件 EBM 接近单模态,采样更容易。
学习完边缘 EBM 后,可以使用 MCMC 技术(如朗之万采样)从高斯白噪声分布初始化的一系列条件样本中生成合成图像:
\[\mathbf{y}_t^{\tau + 1} = \mathbf{y}_t^{\tau} + \frac{b^2\sigma_t^2}{2}(\nabla_{\mathbf{y}}f_{\theta}(\mathbf{y}_t^{\tau}, t) + \frac{1}{\sigma_t^2}(\mathbf{x}_{t + 1} - \mathbf{y}_t^{\tau})) + b\sigma_t\epsilon^{\tau}\]
### 基于扩散的模型
基于扩散的模型在生成逼真图像方面表现出色,它学习的是一个采样过程而非显式密度,更像是一个采样器。其核心思想是:
1. **正向扩散过程**:不断向干净图像添加无穷小方差的噪声,直到图像变成高斯白噪声图像。
2. **反向扩散过程**:从高斯白噪声分布开始,学习反转正向扩散过程,回到干净图像的多模态数据分布。这一过程类似于以相反的时间顺序播放正向扩散过程的“电影”,受到非平衡热力学的启发,本质上是一个去噪过程。
基于扩散的模型有两种不同的视角:
- **条件高斯分布视角**:当 $\sigma_{t + 1}^2$ 无穷小时,条件分布 $p_{\theta}(\mathbf{y}_t|\mathbf{x}_{t + 1})$ 近似为高斯分布。可以通过对 $\mathbf{y}_t$ 的对数密度进行一阶泰勒展开得到该条件高斯分布。反向过程可以分解为一系列具有无穷小方差的条件高斯模型的马尔可夫序列,并在最大似然或变分推断框架
0
0
复制全文
相关推荐









