MagicAnimate 的核心生成模型是一个 3D 时序 U-Net,它扩展了传统的 2D U-Net 结构,以处理视频数据并捕捉时间依赖性。该模型结合了 3D 卷积和时序注意力机制,能够有效地生成时间一致且高质量的动画帧。
1. 模型架构概述
MagicAnimate 的 3D 时序 U-Net 模型基于传统的 U-Net 架构,但进行了以下扩展:
- 3D 卷积层:用于捕捉视频数据中的时空特征。
- 时序注意力层:用于捕捉不同时间步之间的依赖关系,确保时间一致性。
- 编码器-解码器结构:与 U-Net 类似,模型包含编码器(Encoder)和解码器(Decoder)部分,并通过跳跃连接(Skip Connections)融合不同层次的特征。
1.1 编码器(Encoder)
编码器负责从输入视频中提取多层次的时空特征。具体结构如下:
-
输入层:
- 输入为视频序列,形状为
×
- 输入为视频序列,形状为