📄论文题目:DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes
✍️作者及机构:Jinxiu Liu、Shaoheng Lin(华南理工大学);Yinxiao Li、Ming-Hsuan Yang(Google DeepMind、UC Merced)
🧩面临问题:当前全景视频生成存在诸多限制,多数视频扩散模型受限于分辨率和纵横比,难以适配场景级动态内容合成;360° 全景视频生成面临内容分布广、运动模式特殊及边界连续性要求高的问题;动态场景生成需兼顾空间连贯性与全局运动一致性,且内存消耗大,实时推理受限123。
🎯创新点及其具体研究方法:
1️⃣ 提出统一无微调框架 DynamicScaler:支持空间可扩展和全景动态场景合成,无需微调即可适配任意尺寸、分辨率、纵横比及 360° 视场角场景,兼容文本和图像条件输入,实现沉浸式动态场景创建4。
2️⃣ 引入偏移移位去噪器(OSD):通过设计动态偏移窗口机制,在水平和垂直方向每步偏移去噪窗口,创造重叠区域,同步对全景动态场景去噪,确保边界无缝过渡和场景连续性,适配任意纵横比57。
3️⃣ 全局运动引导(GMG)机制:将生成过程分为全局布局和局部内容阶段,先合成低分辨率视频捕捉高层运动结构, upscale 阶段以此为初始化引导高分辨率生成,兼顾局部细节与全局运动连续性58。
4️⃣ 全景投影去噪器与 temporal 扩展:针对 360° 视场角全景生成,将球面全景投影到透视视口窗口去噪后再投影回赤道投影,同时扩展至时间维度,通过 temporal 偏移策略处理长时长或可循环动态视频,克服 GPU 内存限制并保证时间一致性6910。