⭐CVPR2025 VideoDirector：用 T2V 模型实现精准视频编辑的新框架

最新推荐文章于 2025-08-13 21:47:00 发布

LetsonH

最新推荐文章于 2025-08-13 21:47:00 发布

阅读量181

点赞数 7

CC 4.0 BY-SA版权

分类专栏：【论文速递】文章标签：计算机视觉人工智能 python 深度学习科技

本文链接：https://blog.csdn.net/qq_25601345/article/details/150146728

【论文速递】专栏收录该内容

16 篇文章

订阅专栏

📄论文题目：VideoDirector: Precise Video Editing via Text-to-Video Models
✍️作者及机构：Yukun Wang、Longguang Wang、Zhiyuan Ma、Qibin Hu、Kai Xu、Yulan Guo（中山大学深圳校区、清华大学、国防科技大学）
🧩面临问题：当前视频编辑方法存在明显局限。一方面，现有方法多依赖 Text-to-Image（T2I）模型，但其缺乏时间连贯性生成能力，导致编辑结果质量不佳；另一方面，直接将 “反转 - 编辑” 范式扩展到 Text-to-Video（T2V）模型时，会出现严重伪影，如颜色闪烁和内容失真。这源于 T2V 模型存在紧密的时空耦合问题，普通关键反转策略难以解耦时空信息，且普通交叉注意力控制不足以保留未编辑内容123。
在这里插入图片描述
🎯创新点及其具体研究方法：
1️⃣ 提出时空解耦引导（STDG）与多帧空文本优化策略：多帧空文本嵌入设计，以适应视频的额外时间信息，相比普通空文本嵌入在准确性和真实感上有显著提升；STDG 通过最小化时间注意力图差异和自注意力键差异，结合 SAM2 模型生成的前景 / 背景掩码，分别获取时间感知引导和空间外观引导，最终整合为时空解耦引导，使扩散反向轨迹与初始轨迹精准对齐4567。
2️⃣ 开发自注意力控制策略：包括自注意力 - I（SA-I）和自注意力 - II（SA-II）。SA-I 在编辑初期的前几步，用重建路径的自注意力图替换编辑路径的自注意力图，初始化时空布局；SA-II 拼接重建和编辑过程的键值对，利用注意力掩码在注意力图上推导互注意力，防止编辑区域融入原始内容，增强对复杂时空布局的维护和编辑保真度91011。
3️⃣ 设计交叉注意力控制策略：在编辑的前几次迭代中，对于编辑提示与原始提示共有的词，用重建路径的交叉注意力图替换编辑路径的；对于编辑提示独有的新词，保留编辑路径的注意力图，以此引入编辑引导，定义交叉注意力图实现有效融合12。
4️⃣ 实验验证性能优势：在包含 75 个文本 - 视频编辑对的数据集上，与 Video-P2P、RAVE、Flatten、Tokenflow 等方法对比，在运动平滑度（MS）、Pick 得分（PS）、掩码 PSNR（m.P）、LPIPS（m.L）和用户研究（US）等指标上均表现最优，证明方法在准确性、保真度、运动平滑度和真实感方面的优越性13141516。