📄论文题目:VideoDirector: Precise Video Editing via Text-to-Video Models
✍️作者及机构:Yukun Wang、Longguang Wang、Zhiyuan Ma、Qibin Hu、Kai Xu、Yulan Guo(中山大学深圳校区、清华大学、国防科技大学)
🧩面临问题:当前视频编辑方法存在明显局限。一方面,现有方法多依赖 Text-to-Image(T2I)模型,但其缺乏时间连贯性生成能力,导致编辑结果质量不佳;另一方面,直接将 “反转 - 编辑” 范式扩展到 Text-to-Video(T2V)模型时,会出现严重伪影,如颜色闪烁和内容失真。这源于 T2V 模型存在紧密的时空耦合问题,普通关键反转策略难以解耦时空信息,且普通交叉注意力控制不足以保留未编辑内容123。
🎯创新点及其具体研究方法:
1️⃣ 提出时空解耦引导(STDG)与多帧空文本优化策略:多帧空文本嵌入设计,以适应视频的额外时间信息,相比普通空文本嵌入在准确性和真实感上有显著提升;STDG 通过最小化时间注意力图差异和自注意力键差异,结合 SAM2 模型生成的前景 / 背景掩码,分别获取时间感知引导和空间外观引导,最终整合为时空解耦引导,使扩散反向轨迹与初始轨迹精准对齐4567。
2️⃣ 开发自注意力控制策略:包括自注意力 - I(SA-I)和自注意力 - II(SA-II)。SA-I 在编辑初期的前几步,用重建路径的自注意力图替换编辑路径的自注意力图,初始化时空布局;SA-II 拼接重建和编辑过程的键值对,利用注意力掩码在注意力图上推导互注意力,防止编辑区域融入原始内容,增强对复杂时空布局的维护和编辑保真度91011。
3️⃣ 设计交叉注意力控制策略:在编辑的前几次迭代中,对于编辑提示与原始提示共有的词,用重建路径的交叉注意力图替换编辑路径的;对于编辑提示独有的新词,保留编辑路径的注意力图,以此引入编辑引导,定义交叉注意力图实现有效融合12。
4️⃣ 实验验证性能优势:在包含 75 个文本 - 视频编辑对的数据集上,与 Video-P2P、RAVE、Flatten、Tokenflow 等方法对比,在运动平滑度(MS)、Pick 得分(PS)、掩码 PSNR(m.P)、LPIPS(m.L)和用户研究(US)等指标上均表现最优,证明方法在准确性、保真度、运动平滑度和真实感方面的优越性13141516。