⭐CVPR2025 VideoDirector:用 T2V 模型实现精准视频编辑的新框架

📄论文题目:VideoDirector: Precise Video Editing via Text-to-Video Models
✍️作者及机构:Yukun Wang、Longguang Wang、Zhiyuan Ma、Qibin Hu、Kai Xu、Yulan Guo(中山大学深圳校区、清华大学、国防科技大学)
🧩面临问题:当前视频编辑方法存在明显局限。一方面,现有方法多依赖 Text-to-Image(T2I)模型,但其缺乏时间连贯性生成能力,导致编辑结果质量不佳;另一方面,直接将 “反转 - 编辑” 范式扩展到 Text-to-Video(T2V)模型时,会出现严重伪影,如颜色闪烁和内容失真。这源于 T2V 模型存在紧密的时空耦合问题,普通关键反转策略难以解耦时空信息,且普通交叉注意力控制不足以保留未编辑内容123。
在这里插入图片描述
🎯创新点及其具体研究方法:
1️⃣ 提出时空解耦引导(STDG)与多帧空文本优化策略:多帧空文本嵌入设计,以适应视频的额外时间信息,相比普通空文本嵌入在准确性和真实感上有显著提升;STDG 通过最小化时间注意力图差异和自注意力键差异,结合 SAM2 模型生成的前景 / 背景掩码,分别获取时间感知引导和空间外观引导,最终整合为时空解耦引导,使扩散反向轨迹与初始轨迹精准对齐4567。
2️⃣ 开发自注意力控制策略:包括自注意力 - I(SA-I)和自注意力 - II(SA-II)。SA-I 在编辑初期的前几步,用重建路径的自注意力图替换编辑路径的自注意力图,初始化时空布局;SA-II 拼接重建和编辑过程的键值对,利用注意力掩码在注意力图上推导互注意力,防止编辑区域融入原始内容,增强对复杂时空布局的维护和编辑保真度91011。
3️⃣ 设计交叉注意力控制策略:在编辑的前几次迭代中,对于编辑提示与原始提示共有的词,用重建路径的交叉注意力图替换编辑路径的;对于编辑提示独有的新词,保留编辑路径的注意力图,以此引入编辑引导,定义交叉注意力图实现有效融合12。
4️⃣ 实验验证性能优势:在包含 75 个文本 - 视频编辑对的数据集上,与 Video-P2P、RAVE、Flatten、Tokenflow 等方法对比,在运动平滑度(MS)、Pick 得分(PS)、掩码 PSNR(m.P)、LPIPS(m.L)和用户研究(US)等指标上均表现最优,证明方法在准确性、保真度、运动平滑度和真实感方面的优越性13141516。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

LetsonH

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值