论文讲解:FVDM——面向帧感知的视频扩散模型
一、研究背景与问题动机
视频扩散模型(Video Diffusion Models, VDMs)在图像扩散模型的基础上,通过“整段视频整体去噪”来生成短视频,取得了初步成功。然而,现有方法沿用图像扩散的“标量时间步”思路,即在整个视频片段的每一帧上施加相同的时间步 t,导致以下局限:
-
时间建模能力不足:无法精细刻画帧间差异的时序动态;
-
下游任务适应性差:如图像到视频、长视频生成、插帧等任务需大量微调或特殊设计;
-
零样本泛化弱:微调易灾难遗忘,零样本方法又常牺牲质量。
二、核心贡献
作者提出 Frame-Aware Video Diffusion Model(FVDM),主要贡献如下:
-
引入 向量时间步变量(Vectorized Timestep Variable, VTV),允许每一帧拥有独立的时间步,实现帧级独立演化;
-
在不重新训练的情况下,支持多种零样本任务:标准视频生成、图像到视频、插帧、长视频扩展等;
-
实验显示,FVDM 在 FVD 指标上优于 Latte 等最新模型,并在零样本应用中保持时序一致性。
三、方法详述
3.1 预备知识:扩散模型回顾
扩散模型通过前向随机微分方程(SDE)逐步添加噪声,再通过逆向 SDE 去噪还原数据。其关键公式:
-
前向:
-
逆向:
3.2 向量时间步变量(VTV)
传统方法对所有帧使用同一标量 t,FVDM 改为:
其中 τ^(i)(t) 代表第 i 帧的独立时间步,实现帧级噪声调度。
3.3 帧级前向 SDE
对第 i 帧:
整体视频 X ∈ ℝ^{N×d} 的前向方程合并为:
其中 Σ 是对角矩阵,保证各帧噪声独立。
3.4 帧级逆向 SDE 与评分匹配
逆向过程:
训练目标为:
3.5 实现细节
-
网络:采用 Ma et al. 2024 的 Latte Transformer,简单改造即可接受 (B,N) 形时间步;
-
训练:提出 概率时间步采样策略(PTSS),以概率 p 独立采样各帧时间步,以 1−p 共享首帧时间步,平衡灵活性与计算量;
-
推理:兼容 DDPM/DDIM 等现有采样器,无需重新设计。
四、下游零样本应用
任务 | VTV 配置示例 | 效果 |
---|---|---|
标准视频生成 | [t,t,…,t] | 与传统 VDM 类似 |
图像到视频 | [0,t,…,t] | 第一帧无噪声,后续帧正常扩散 |
视频插帧 | [0,t,…,t,0] | 首末帧固定,中间帧平滑过渡 |
长视频扩展 | [0,…,0,t,…,t] | 条件为前 M 帧,后续生成新帧 |
任意帧条件生成 | [t,…,0,…,t] | 指定某帧无噪声,其余正常 |
视频过渡/下一帧预测 | 自定义 τ | 可连接两段视频或仅生成下一帧 |
五、实验结果
-
数据集:FaceForensics、SkyTimelapse、UCF101、Taichi-HD
-
指标:Fréchet Video Distance (FVD),越低越好
-
主要结论:
-
在四个数据集上,FVDM 的 FVD 均低于或接近最佳基线 Latte;
-
Ablation 表明:采样概率 p=0.2、DDIM-50 步、XL 规模效果最优;
-
零样本应用主观质量高,长 128 帧仍保持时序一致性。
六、相关工作简述
作者回顾了三大任务方向的近期工作:
-
图像到视频:DynamiCrafter、I2V-Adapter、I2VGen-XL 等;
-
视频插帧:MCVD、LDMVFI、EasyControl 等;
-
长视频:ExVideo、StreamingT2V、FreeNoise 等。
指出这些方法多依赖微调或零样本技巧,存在灾难遗忘或泛化受限问题,而 FVDM 通过 VTV 统一解决。
七、结论与展望
FVDM 通过向量时间步变量,突破了传统 VDM 的标量时间步限制,提升了时序建模细粒度与任务通用性。未来工作包括:
-
更高效的训练策略;
-
针对视频补帧、视频 ControlNet 等任务的 VTV 设计;
-
探索更复杂的噪声调度与帧级编辑能力。