PusaV1模型论文速读:面向帧感知的视频扩散模型

论文讲解:FVDM——面向帧感知的视频扩散模型


一、研究背景与问题动机

视频扩散模型(Video Diffusion Models, VDMs)在图像扩散模型的基础上,通过“整段视频整体去噪”来生成短视频,取得了初步成功。然而,现有方法沿用图像扩散的“标量时间步”思路,即在整个视频片段的每一帧上施加相同的时间步 t,导致以下局限:

  1. 时间建模能力不足:无法精细刻画帧间差异的时序动态;

  2. 下游任务适应性差:如图像到视频、长视频生成、插帧等任务需大量微调或特殊设计;

  3. 零样本泛化弱:微调易灾难遗忘,零样本方法又常牺牲质量。


二、核心贡献

作者提出 Frame-Aware Video Diffusion Model(FVDM),主要贡献如下:

  1. 引入 向量时间步变量(Vectorized Timestep Variable, VTV),允许每一帧拥有独立的时间步,实现帧级独立演化

  2. 不重新训练的情况下,支持多种零样本任务:标准视频生成、图像到视频、插帧、长视频扩展等;

  3. 实验显示,FVDM 在 FVD 指标上优于 Latte 等最新模型,并在零样本应用中保持时序一致性。


三、方法详述

3.1 预备知识:扩散模型回顾

扩散模型通过前向随机微分方程(SDE)逐步添加噪声,再通过逆向 SDE 去噪还原数据。其关键公式:

  • 前向:
    在这里插入图片描述

  • 逆向:
    在这里插入图片描述

3.2 向量时间步变量(VTV)

传统方法对所有帧使用同一标量 t,FVDM 改为:

在这里插入图片描述

其中 τ^(i)(t) 代表第 i 帧的独立时间步,实现帧级噪声调度。

3.3 帧级前向 SDE

对第 i 帧:

在这里插入图片描述

整体视频 X ∈ ℝ^{N×d} 的前向方程合并为:

在这里插入图片描述

其中 Σ 是对角矩阵,保证各帧噪声独立。

3.4 帧级逆向 SDE 与评分匹配

逆向过程:

在这里插入图片描述

训练目标为:

在这里插入图片描述

3.5 实现细节

  • 网络:采用 Ma et al. 2024 的 Latte Transformer,简单改造即可接受 (B,N) 形时间步;

  • 训练:提出 概率时间步采样策略(PTSS),以概率 p 独立采样各帧时间步,以 1−p 共享首帧时间步,平衡灵活性与计算量;

  • 推理:兼容 DDPM/DDIM 等现有采样器,无需重新设计。


四、下游零样本应用

任务VTV 配置示例效果
标准视频生成[t,t,…,t]与传统 VDM 类似
图像到视频[0,t,…,t]第一帧无噪声,后续帧正常扩散
视频插帧[0,t,…,t,0]首末帧固定,中间帧平滑过渡
长视频扩展[0,…,0,t,…,t]条件为前 M 帧,后续生成新帧
任意帧条件生成[t,…,0,…,t]指定某帧无噪声,其余正常
视频过渡/下一帧预测自定义 τ可连接两段视频或仅生成下一帧

五、实验结果

  1. 数据集:FaceForensics、SkyTimelapse、UCF101、Taichi-HD

  2. 指标:Fréchet Video Distance (FVD),越低越好

  3. 主要结论:

  • 在四个数据集上,FVDM 的 FVD 均低于或接近最佳基线 Latte;

  • Ablation 表明:采样概率 p=0.2、DDIM-50 步、XL 规模效果最优;

  • 零样本应用主观质量高,长 128 帧仍保持时序一致性。


六、相关工作简述

作者回顾了三大任务方向的近期工作:

  1. 图像到视频:DynamiCrafter、I2V-Adapter、I2VGen-XL 等;

  2. 视频插帧:MCVD、LDMVFI、EasyControl 等;

  3. 长视频:ExVideo、StreamingT2V、FreeNoise 等。

指出这些方法多依赖微调或零样本技巧,存在灾难遗忘或泛化受限问题,而 FVDM 通过 VTV 统一解决。


七、结论与展望

FVDM 通过向量时间步变量,突破了传统 VDM 的标量时间步限制,提升了时序建模细粒度与任务通用性。未来工作包括:

  • 更高效的训练策略;

  • 针对视频补帧、视频 ControlNet 等任务的 VTV 设计;

  • 探索更复杂的噪声调度与帧级编辑能力。


八、核心技术汇总表

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Open-source-AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值