PusaV1模型论文速读：面向帧感知的视频扩散模型

原创于 2025-07-21 22:15:00 发布 · 810 阅读

·

25

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#音视频 #自然语言处理 #人工智能 #语言模型 #开源 #多模态

前沿专栏收录该内容

361 篇文章

订阅专栏

论文讲解：FVDM——面向帧感知的视频扩散模型

一、研究背景与问题动机

视频扩散模型（Video Diffusion Models, VDMs）在图像扩散模型的基础上，通过“整段视频整体去噪”来生成短视频，取得了初步成功。然而，现有方法沿用图像扩散的“标量时间步”思路，即在整个视频片段的每一帧上施加相同的时间步 t，导致以下局限：

时间建模能力不足：无法精细刻画帧间差异的时序动态；
下游任务适应性差：如图像到视频、长视频生成、插帧等任务需大量微调或特殊设计；
零样本泛化弱：微调易灾难遗忘，零样本方法又常牺牲质量。

二、核心贡献

作者提出 Frame-Aware Video Diffusion Model（FVDM），主要贡献如下：

引入 向量时间步变量（Vectorized Timestep Variable, VTV），允许每一帧拥有独立的时间步，实现帧级独立演化；
在不重新训练的情况下，支持多种零样本任务：标准视频生成、图像到视频、插帧、长视频扩展等；
实验显示，FVDM 在 FVD 指标上优于 Latte 等最新模型，并在零样本应用中保持时序一致性。

三、方法详述

3.1 预备知识：扩散模型回顾

扩散模型通过前向随机微分方程（SDE）逐步添加噪声，再通过逆向 SDE 去噪还原数据。其关键公式：

前向：
逆向：

3.2 向量时间步变量（VTV）

传统方法对所有帧使用同一标量 t，FVDM 改为：

在这里插入图片描述

其中 τ^(i)(t) 代表第 i 帧的独立时间步，实现帧级噪声调度。

3.3 帧级前向 SDE

对第 i 帧：

在这里插入图片描述

整体视频 X ∈ ℝ^{N×d} 的前向方程合并为：

在这里插入图片描述

其中 Σ 是对角矩阵，保证各帧噪声独立。

3.4 帧级逆向 SDE 与评分匹配

逆向过程：

在这里插入图片描述

训练目标为：

在这里插入图片描述

3.5 实现细节

网络：采用 Ma et al. 2024 的 Latte Transformer，简单改造即可接受 (B,N) 形时间步；
训练：提出 概率时间步采样策略（PTSS），以概率 p 独立采样各帧时间步，以 1−p 共享首帧时间步，平衡灵活性与计算量；
推理：兼容 DDPM/DDIM 等现有采样器，无需重新设计。

四、下游零样本应用

任务	VTV 配置示例	效果
标准视频生成	[t,t,…,t]	与传统 VDM 类似
图像到视频	[0,t,…,t]	第一帧无噪声，后续帧正常扩散
视频插帧	[0,t,…,t,0]	首末帧固定，中间帧平滑过渡
长视频扩展	[0,…,0,t,…,t]	条件为前 M 帧，后续生成新帧
任意帧条件生成	[t,…,0,…,t]	指定某帧无噪声，其余正常
视频过渡/下一帧预测	自定义 τ	可连接两段视频或仅生成下一帧

五、实验结果

数据集：FaceForensics、SkyTimelapse、UCF101、Taichi-HD
指标：Fréchet Video Distance (FVD)，越低越好
主要结论：

在四个数据集上，FVDM 的 FVD 均低于或接近最佳基线 Latte；
Ablation 表明：采样概率 p=0.2、DDIM-50 步、XL 规模效果最优；
零样本应用主观质量高，长 128 帧仍保持时序一致性。

六、相关工作简述

作者回顾了三大任务方向的近期工作：

图像到视频：DynamiCrafter、I2V-Adapter、I2VGen-XL 等；
视频插帧：MCVD、LDMVFI、EasyControl 等；
长视频：ExVideo、StreamingT2V、FreeNoise 等。

指出这些方法多依赖微调或零样本技巧，存在灾难遗忘或泛化受限问题，而 FVDM 通过 VTV 统一解决。

七、结论与展望

FVDM 通过向量时间步变量，突破了传统 VDM 的标量时间步限制，提升了时序建模细粒度与任务通用性。未来工作包括：

更高效的训练策略；
针对视频补帧、视频 ControlNet 等任务的 VTV 设计；
探索更复杂的噪声调度与帧级编辑能力。

八、核心技术汇总表

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Open-source-AI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。