在当今数字化时代,3D数字化身的创建与应用越来越广泛,但高质量、逼真的3D数字化身的生成往往伴随着高昂的内存与计算成本。Rodin这一模型的出现,为解决这一问题带来了新的思路。
Rodin的基本原理
Rodin是一种扩散模型,它将3D化身表示为神经辐射场,然后运用体积渲染技术进行渲染,这一技术与神经辐射场(NeRF)相关技术类似。为了应对生成高质量逼真化身的成本问题,Rodin采用了独特的方式。它把NeRF表示为多个2D特征图,并将这些图展开成单个特征平面,以此进行3D感知扩散。具体而言,它运用了三平面表示法,通过三个与坐标轴对齐的正交特征平面来表示一个体积。
之所以能采用这种表示法,主要得益于以下几个关键因素:
- 3D感知卷积:这种卷积充分考虑到三平面中一个平面的2D特征实际上是3D数据的投影,并且与其他两个平面中相同数据的投影特征存在内在联系。例如,假设我们有一个简单的3D物体模型,在三平面表示中,每个平面上的特征都和这个3D物体的特定部分相关,3D感知卷积能将这些联系清晰地梳理和利用起来。
- 潜在条件:为确保训练数据的特征在整个3D体积中具有全局一致性,Rodin使用潜在编码来生成特征。这样不仅能生成更高质量的化身,还能借助文本或图像数据进行语义编辑。就好比给模型一个“潜在的引导”,让它生成的化身能更好地符合特定的语义要求,比如生成一个具有特定发型或服装的化身。
- 分层合成:扩散模型先生成低分辨率的三平面特征,然后将其进行上采样,转换为更高质量的特征,最终渲染成3D化身。这就像我们画画,先勾勒出大致的轮廓(低