晚上看到一篇用于生成高保真度的音频驱动说话头视频的研究论文AD-NeRF(Audio Driven 。主要内容包括:
-
问题背景:音频驱动的面部视频生成是一个具有挑战性的问题,现有方法通常依赖于中间表示(如2D地标或3D人脸模型),这些方法存在信息损失和语义不匹配的问题。
-
方法概述:AD-NeRF直接将音频特征映射到动态神经辐射场,通过体渲染合成高保真度的说话头视频。与现有方法不同,AD-NeRF不依赖中间表示,而是直接处理音频信号和视觉面部之间的映射。
-
技术细节:
-
神经辐射场(NeRF):使用NeRF表示说话头的场景,通过条件隐函数将音频特征映射到动态神经辐射场。
-
体渲染:通过体渲染过程从神经辐射场生成视觉面部。
-
个体NeRF表示:将头部和躯干部分分别建模,以处理不一致的运动。
-
-
实验与评估:通过定量和定性实验,验证了AD-NeRF在生成高保真度和自然说话头视频方面的优势。与现有方法相比,AD-NeRF在唇部同步、图像质量和现实性方面表现更好。
-
应用与编辑:AD-NeRF支持音频驱动和姿势操作的说话头视频生成,以及背景图像的替换,适用于虚拟现实应用。
-
贡献:
-
直接将音频特征映射到动态神经辐射场,避免中间模态的信息损失。
-
将神经辐射场分解为头部和躯干两个分支,生成更自然的说话头结果。
-
支持音频驱动、姿势操作和背景替换的说话头视频编辑。
-
AD-NeRF通过创新的神经辐射场方法,实现了高质量、自然的音频驱动说话头视频生成,并支持多种编辑功能。正好最近数字人比较火热就想着整体看一下,这里是自己的阅读记录,感兴趣的话可以参考一下,如果需要阅读原文可以看这里,如下所示:
摘要
通过拟合输入音频序列生成高保真度的说话头视频是一个具有挑战性的问题,近年来引起了广泛关注。在本文中,我们借助神经场景表示网络解决了这个问题。我们的方法与现有依赖于2D地标或3D人脸模型等中间表示来弥合音频输入和视频输出之间差距的方法完全不同。具体来说,输入音频信号的特征直接输入到条件隐函数中,生成动态神经辐射场,然后使用体渲染合成与音频信号对应的高保真度说话头视频。我们框架的另一个优势是,不仅头部(带头发)区域像以前的方法一样被合成,而且上半身也通过两个独立的神经辐射场生成。实验结果表明,我们新颖的框架可以(1)生成高保真度和自然的说话头视频,(2)支持自由调整音频信号、观看方向和背景图像。代码可在这里,如下所示:
1 引言
合成高保真度的音频驱动面部视频序列在许多应用中是一个重要且具有挑战性的问题,如数字人类、聊天机器人和虚拟视频会议。将说话头生成过程视为从音频到视觉面部的跨模态映射,合成的面部图像应表现出自然的说话风格,同时同步照片般逼真的流媒体结果,与原始视频相同。
目前,已经提出了多种方法来解决这个问题。早期的方法依赖于专业艺术家建模[12, 60]或复杂的动作捕捉系统[6, 54],这些方法仅限于电影和游戏行业的高端领域。最近,许多基于深度学习的技术[35, 42, 10, 58, 7, 43, 48, 59, 21, 57]被提出,通过生成对抗网络(GANs)学习音频到面部的转换。然而,解决这个问题非常具有挑战性,因为忠实地关联音频信号和面部变形(包括表情和唇部运动)并非易事。因此,大多数这些方法利用一些中间面部表示,包括重建显式的3D面部形状[55]和回归表情系数[43]或2D地标[41, 47]。由于中间表示导致的信息损失,可能会导致原始音频信号和学习到的面部变形之间的语义不匹配。此外,现有的音频驱动方法存在一些局限性,如仅渲染嘴部[41, 43]或固定静态头部姿势[35, 42, 10, 7],因此不适合高级说话头编辑任务,如姿势操作和背景替换。
为了解决现有说话头方法的这些问题,我们关注最近开发的神经辐射场(NeRF)。我们提出了AD-NeRF,一种音频驱动的神经辐射场模型,可以在不引入额外中间表示的情况下处理跨模态映射问题。与现有依赖于3D面部形状、表情系数或2D地标来编码面部图像的方法不同,我们采用神经辐射场(NeRF)[30]来表示说话头的场景。受动态NeRF[16]用于建模人脸外观和动态的启发,我们直接将相应的音频特征映射到动态神经辐射场,以表示目标动态主体。得益于神经渲染技术,我们的模型可以很好地表示一些细粒度的面部组件,如牙齿和头发,并实现了比现有基于GAN的方法更好的图像质量。此外,体表示提供了一种自然的方式来自由调整动画说话者的全局变形,这是传统2D图像生成方法无法实现的。此外,我们的方法考虑了头部姿势和上半身运动,并能够为实际应用生成生动的说话头结果。
具体来说,我们的方法以一个短的视频序列作为输入,包括目标说话人的视频和音频轨道。给定通过DeepSpeech[1]模型提取的音频特征和面部解析图,我们的目标是构建一个音频条件隐函数,存储说话头场景表示的神经辐射场。由于头部部分的运动与上半身部分的运动不一致,我们将神经辐射场表示进一步分为两个组件,一个用于前景面部,另一个用于前景躯干。通过这种方式,我们可以从收集的训练数据中生成自然的说话头序列。请参考补充视频以获得更好的结果可视化。
总之,我们提出的说话头合成方法的贡献包含三个主要方面:
-
我们提出了一种音频驱动的说话头方法,直接将音频特征映射到动态神经辐射场进行肖像渲染,没有任何可能导致信息损失的中间模态。消融研究表明,这种直接映射在生成准确的唇部运动结果方面具有更好的能力,训练数据为短视频。
-
我们将人类肖像场景的神经辐射场分解为两个分支,分别建模头部和躯干的变形,这有助于生成更自然的说话头结果。
-
借助音频驱动的NeRF,我们的方法支持说话头视频编辑,如姿势操作和背景替换,这对于潜在的虚拟现实应用具有价值。
2 相关工作
音频驱动的面部动画。音频驱动的面部动画的目标是根据任意输入语音序列重新演绎特定人物。根据应用目标和技术,可以分为两类:基于模型和数据驱动的方法。基于模型的方法[39, 12, 60]需要专业工作来建立音频语义和唇部运动之间的关系,如音素-视素映射[14]。因此,它们除了高级数字创作(如电影和游戏角色)外,不便于一般应用。随着深度学习技术的发展,许多数据驱动的方法被提出以生成照片般逼真的说话头结果。早期方法尝试合成满足静态面部图像训练数据的唇部运动[5, 13, 8, 53, 7, 46]。后来,通过使用大量奥巴马演讲视频[41],改进了生成全图像帧的方法。基于开发的3D面部重建[19, 11, 50]和生成对抗网络,越来越多的方法被提出,通过中间估计3D面部形状[22, 43, 55]或面部地标[56, 47]。与我们的方法相比,它们由于潜在模态(即先验参数模型或低维地标)需要更多的训练数据。
视频驱动的面部动画。视频驱动的面部动画是将源演员的面部姿势和表情转移到目标的过程。大多数方法依赖于基于模型的面部表演捕捉[44, 45, 24, 23]。Thies[44]使用RGB-D相机跟踪动态3D面部,然后将面部表情从源演员转移到目标。Thies[45]进一步改进了仅使用RGB相机的流水线。Kim[24]利用生成对抗网络合成照片般逼真的皮肤纹理,可以根据渲染条件处理皮肤变形。Kim[23]分析了面部表情的风格概念,并展示了其在基于视频的配音中的重要性。
隐式神经场景网络。神经场景表示是使用神经网络表示场景的形状和外观。Sitzmann[40]首次引入了神经场景表示网络(SRNs),其中对象的几何和外观表示为可以在空间中采样的神经网络。自去年以来,神经辐射场(NeRF)[30]在神经渲染和神经重建任务中引起了广泛关注。隐式表示的形状和外观可以转换为体光线采样结果。后续工作通过使用野外训练数据扩展了这一想法,包括外观插值[29],引入可变形神经辐射场以表示非刚性移动对象[31, 36],以及在没有预计算相机参数的情况下优化NeRF[52]。
用于人类的神经渲染。人类头部和身体的神经渲染也吸引了许多关注[15, 28, 27]。随着最近的隐式神经场景表示[38, 20],Wang[51]提出了一种组合的3D场景表示,用于学习高质量的动态神经辐射场上半身。Raj[37]在NeRF中采用像素对齐特征[38],以在测试时推广到未见过的身份。Gao[17]提出了一种元学习框架,用于从单张肖像图像估计神经辐射场。Gafni[16]提出了动态神经辐射场,用于建模人脸的动态。Peng[33]整合了跨视频帧的观察结果,以从稀疏多视点视频中实现人体的新视图合成。
3 方法
概述
我们的说话头合成框架(图1)在目标人物的短视频序列及其音频轨道上进行训练。基于神经渲染思想,我们隐式地通过神经场景表示(即神经辐射场)建模变形的人类头部和上半身。为了弥合音频信号和视觉面部之间的领域差距,我们提取语义音频特征并学习一个条件隐函数,将音频特征映射到神经辐射场(第3.2节)。最后,使用体渲染从神经辐射场渲染视觉面部(第3.3节)。在推理阶段,我们可以简单地从音频输入生成忠实的视觉特征。此外,我们的方法还可以生成目标人物的现实说话风格。这是通过在单独的方式下估计动态头部和上半身的神经辐射场(第3.4节)实现的,借助自动解析方法[26]来分割头部和躯干部分并提取干净背景。当我们将体特征转换到新的规范空间时,头部和其他身体部分将以其各自的隐式模型渲染,从而产生非常自然的结果。
图1. 我们提出的说话头合成方法的框架。给定一个人的肖像视频序列,我们训练两个神经辐射场,通过体渲染合成高保真度的说话头。
用于说话头的神经辐射场
基于标准的神经辐射场场景表示[30],并受Gafni等人[16]提出的用于面部动画的动态神经辐射场的启发,我们提出了一种带有额外音频代码作为输入的条件隐函数,用于说话头的条件辐射场。除了视图方向d和3D位置x,音频的语义特征a也将作为隐函数Fθ的另一个输入。在实践中,Fθ通过多层感知器(MLP)实现。通过所有连接的输入向量(a,d,x),网络将沿分派的光线估计颜色值c和密度σ。整个隐函数可以表示如下:
Fθ:(a,d,x)→(c,σ). (1)
我们使用与NeRF[30]相同的隐式网络结构,包括位置编码。
语义音频特征。为了从声学信号中提取语义上有意义的信息,类似于之前的音频驱动方法[10, 43],我们使用流行的DeepSpeech[1]模型为每个20ms音频片段预测一个29维的特征代码。在我们的实现中,几个连续帧的音频特征被联合送入一个时间卷积网络,以消除原始输入中的噪声信号。具体来说,我们使用来自十六个相邻帧的特征a∈R16×29来表示音频模态的当前状态。使用音频特征而不是回归的表情系数[43]或面部地标[49]有利于减轻中间翻译网络的训练成本,并防止音频和视觉信号之间潜在的语义不匹配问题。
使用辐射场的体渲染
通过上述隐式模型Fθ预测的颜色c和密度σ,我们可以通过沿穿过每个像素的光线累积采样的密度和RGB值来进行体渲染过程,以计算图像渲染结果的输出颜色。像NeRF[30]一样,相机光线r(t)=o+td的期望颜色C,其中相机中心为o,视图方向为d,近界为tn和远界为tf,评估为:
其中cθ(·)和σθ(·)是上述隐函数Fθ的输出。T(t)是沿光线从tn到t的累积透射率:
Π是面部的估计刚性姿态参数,表示为旋转矩阵R∈R3×3和平移向量t∈R3×1,即Π={R,t}。与Gafni等人[16]类似,Π用于将采样点转换到规范空间。请注意,在训练阶段,我们仅使用头部姿势信息,而不是任何3D面部形状。我们使用Mildenhall等人[30]引入的两阶段积分策略。具体来说,我们首先使用粗网络沿光线预测密度,然后在精细网络中在高密度区域采样更多点。
图2. 两个神经辐射场的训练过程。我们分别使用Head-NeRF(步骤1)和Torso-NeRF(步骤2)重建头部和上半身。
个体NeRF表示
考虑头部姿势进行渲染过程的原因是,与静态背景相比,人体部分(包括头部和躯干)从一帧到另一帧动态移动。因此,将变形点从相机空间转换到规范空间进行辐射场训练是必要的。Gafni等人[16]尝试通过基于自动预测密度解耦前景和背景来处理动态运动,即对于穿过前景像素的分派光线,人体部分将以高密度预测,而背景图像将以低密度忽略。然而,将躯干区域转换到规范空间存在一些模糊性。由于头部部分的运动与躯干部分的运动不一致,并且姿态参数Π仅对面部的形状进行估计,将相同的刚性变换同时应用于头部和躯干区域会导致上半身的不满意渲染结果。为了解决这个问题,我们使用两个独立的神经辐射场对这两个部分进行建模:一个用于头部部分,另一个用于躯干部分。
如图2所示,我们首先利用自动面部解析方法[26]将训练图像分为三个部分:静态背景、头部和躯干。我们首先训练头部部分的隐函数Fθhead。在这一步中,我们将解析图确定的头部区域视为前景,其余为背景。头部姿势Π应用于沿穿过每个像素的光线采样点。光线上的最后一个样本假设位于背景上,具有固定颜色,即背景图像中对应光线的像素颜色。然后我们将Fθhead的渲染图像转换为新的背景,并将躯干部分设为前景。接下来我们继续训练第二个隐模型Fθtorso。在这一阶段,躯干区域没有可用的姿态参数。因此我们假设所有点都位于规范空间(即不使用头部姿势Π进行变换),并将头部姿势Π作为另一个输入条件(与点位置x、视图方向d和音频特征a组合)进行辐射场预测。换句话说,我们隐式地将头部姿势Π视为附加输入,而不是在Fθtorso中使用Π进行显式变换。
在推理阶段,头部部分模型Fθhead和躯干部分模型Fθtorso接受相同的输入参数,包括音频条件代码a和姿态系数Π。体渲染过程将首先通过头部模型累积所有像素的采样密度和RGB值。渲染图像预计覆盖静态背景上的前景头部区域。然后躯干模型将通过在躯干区域预测前景像素来填充缺失的身体部分。总的来说,这种个体神经辐射场表示设计有助于建模不一致的头部和上半身运动,并生成自然的说话头结果。
说话头视频的编辑
由于两个神经辐射场都以语义音频特征和姿态系数作为输入,以控制说话内容和说话头的运动,我们的方法可以通过替换音频输入和调整姿态系数分别实现音频驱动和姿势操作的说话头视频生成。此外,与Gafni等人[16]类似,由于我们使用背景图像上的对应像素作为每个光线的最后一个样本,隐式网络学习预测低密度值用于前景样本,如果光线穿过背景像素,并预测高密度值用于前景像素。通过这种方式,我们的方法解耦了前景-背景区域,并通过替换背景图像实现背景编辑。我们进一步在第4.4节中展示了所有这些编辑应用。
训练细节
数据集。对于每个目标人物,我们收集一个带有音频轨道的短视频序列进行训练。平均视频长度为3-5分钟,所有视频均为25 fps。录制相机和背景均为静态。在测试中,我们的方法允许任意音频输入,如来自不同身份、性别和语言的语音。
训练数据预处理。训练数据预处理有三个主要步骤:(1)我们采用自动解析方法[26]为每一帧标记不同的语义区域;(2)我们应用多帧光流估计方法[18]在近刚性区域(如额头、耳朵和头发)获取跨视频帧的密集对应关系,然后使用束调整[2]估计姿态参数。值得注意的是,估计的姿态仅对面部部分有效,而对其他身体区域(如颈部和肩膀)无效,即面部姿态不能代表整个上半身的运动;(3)我们根据所有连续帧构建一个没有人物的干净背景图像(如图2所示)。这是通过基于解析结果从每一帧中移除人体区域,然后计算所有背景图像的聚合结果实现的。对于缺失区域,我们使用泊松融合[34]使用邻近信息修复像素。
网络与损失函数。总的来说,我们提出的神经辐射场表示网络有两个主要约束。第一个是时间平滑滤波器。在第3.2节中,我们提到使用窗口大小为16处理DeepSpeech特征。16个连续的音频特征将被送入一个1D卷积网络以回归每帧的潜在代码。为了确保音频信号内的稳定性,我们采用自注意力思想[43]在连续音频代码上训练一个时间滤波器。该滤波器通过带有softmax激活的1D卷积层实现。因此,最终的音频条件a由时间过滤的潜在代码给出。
第二个约束是使我们的方法的渲染图像与训练真值相同。设Ir∈Rw×H×3为渲染图像,Ig∈Rw×H×3为真值,优化目标是减少Ir和Ig之间的光度重建误差。具体来说,损失函数表示为:
4 实验
实现细节
我们在PyTorch[32]中实现了我们的框架。两个网络都使用Adam[25]求解器进行训练,初始学习率为0.0005。我们训练每个模型进行400k次迭代。在每次迭代中,我们随机采样一批2048条光线穿过图像像素。我们使用RTX 3090进行训练,每个模型训练400k次迭代。对于一个5分钟、分辨率为450×450的视频,训练两个NeRF大约需要36小时,渲染一帧需要12秒。
图3. 关于使用直接音频或中间面部表情表示来条件NeRF模型的消融研究。可以观察到,直接音频条件在生成准确的唇部运动结果方面具有更好的能力。
图4. 关于为头部和躯干训练个体神经辐射场表示的消融研究。
消融研究
我们验证了框架中采用的两个主要组件。首先,我们比较了基于直接音频条件和附加中间条件的神经渲染结果。其次,我们探讨了为头部和躯干区域训练分离的神经辐射场的好处。
图5. 与基于模型的方法Thies等人[43]和Suwajanakorn等人[41]的比较。我们的方法不仅保留了唇部运动的语义,还支持自由调整观看角度。请观看我们的补充视频以获得视觉结果。
音频条件。如第3.2节所述,我们的基于NeRF的说话头模型直接以音频特征为条件,以避免中间模态的训练成本和信息损失。在图3中,我们比较了从音频代码和音频估计的表情代码生成的渲染图像。我们使用单目面部跟踪方法[45]优化表情参数,并使用与Thies[43]相同的网络结构从音频估计表情代码。从图示结果可以清楚地观察到,音频条件有助于精确的唇部同步。
图6. 与基于图像的方法的比较。图像大小决定了生成结果的图像质量。请观看我们的视频演示以获得更多结果。
头部和躯干区域的个体训练。我们要评估的另一个因素是头部和躯干部分的个体训练策略。为了展示为这两个区域训练两个独立的神经辐射场网络的优势,我们通过为人体运动训练一个单一的NeRF网络进行消融实验。在这种情况下,包括颈部和肩膀在内的躯干区域通过估计的头部姿态矩阵进行变换。因此,在上半身边界周围显然存在不准确的像素不匹配。我们可视化了该区域的渲染图像和真值的光度误差图。从图4中,图示结果证明我们的个体训练策略有利于更好的图像重建质量。
我们还计算了生成的帧和真值帧在整个测试序列(500帧)上的结构相似性指数测量(SSIM)。对于我们的方法和中间表情设置以及单一NeRF设置,分数分别为0.92、0.88和0.87(越高越好)。
评估
在本节中,我们将我们的方法与两类说话头合成方法进行比较:纯图像基方法[53, 7, 46]和中间模型基方法[41, 43]。我们进行了定量和定性实验,以评估每种方法生成的可视化结果。在下面,我们首先总结了两类比较方法,然后介绍了我们设计的评估指标。
图7. 参与者的评分。基于三个不同方面的统计数据,我们的方法与其他两种基于模型的方法取得了可比的结果。然而,我们的方法仅需要一个非常短的视频序列进行训练,而其他两种方法则在多个大型数据集上进行训练。
表1. 我们在两个测试集(A和B)上进行比较,分别从Neural Voice Puppetry [43]和SynthesizingObama [41]的演示中收集。N表示SyncNet分数的置信度值越高越好。H表示AU误差越小越好。此外,我们的方法可以合成全帧图像,并由于音频驱动的神经辐射场而实现姿势操作和背景替换。
与图像基方法的比较。有一类说话头生成方法[5, 13, 8, 53, 7, 46]完全位于图像域。最近的基于深度学习的方法经过多身份训练,因此可以应用于新的目标人物。然而,这些方法的局限性很明显,因为它们只能生成静态面部裁剪图像,与我们的方法不同,我们的方法生成带有背景和目标人物自然说话风格的全尺寸图像。在图6中,我们展示了我们的方法和三种竞争方法[53, 7, 46]生成的音频驱动面部动画结果。可以清楚地观察到,基于图像的说话头方法受限于输入图像大小,因此无法像我们一样生成高分辨率图像。
图8. 与Kim等人[23]的视频驱动方法的比较。右侧是所说的单词
图9. 我们的方法允许来自不同身份、性别和语言的任意音频输入。对于音频驱动结果,请参考我们的补充视频
与模型基方法的比较。模型基方法是指在生成照片般逼真的面部图像时采用先验信息的方法。这类方法的关键组件是统计模型,例如用于口部纹理的PCA模型[41]或用于面部形状的3D可变形模型[43]。
在比较中,我们提取了两种方法发布演示中的音频作为我们框架的输入(我们假设发布演示为它们的最佳结果,因为两者都没有提供预训练模型),命名为测试集A(来自Neural Voice Puppetry[43])和测试集B(来自SynthesizingObama[41])。在图5中,我们展示了每种方法的一些选定的音频驱动说话头帧。请注意,先验模型通常需要大量的训练数据,例如,Suwajanakorn等人[41]报告使用14小时的高质量奥巴马演讲视频进行训练,Thies等人[43]使用超过3小时的训练数据和2-3分钟的视频进行微调,而我们的方法仅需要一个短的视频片段(3-5分钟)进行训练。尽管训练数据集大小存在巨大差距,我们的方法仍然能够生成与其他两种方法相当的自然结果。
此外,我们的方法具有自由操纵目标人物观看方向的优势,这意味着我们可以在训练数据范围内自由调整头部姿势。我们进一步在图10和补充视频中展示了自由观看方向的结果。
与视频驱动方法的比较。除了音频驱动方法外,另一类说话头生成方法位于视频驱动,即从源肖像视频驱动目标人物。我们将我们的音频驱动方法与最近的风格基视频驱动方法[23]在图8中进行比较。我们可以看到,两种方法都生成了高保真度的说话头结果。请注意,Kim等人[23]的方法以视频帧为输入,而我们的方法以相应的音频为输入。
图10. 我们的方法可以生成带有自由调整观看方向和各种背景图像的说话头帧。每行从左到右:视频中的原始帧,使用原始视频的音频和姿势的重建结果,两个背景替换结果样本,两个姿势操作结果样本。
指标。我们采用多个评估指标来展示我们的方法相对于其他方法的优越性。作为音频驱动的说话头生成工作,同步的视觉面部应与音频输入一致,同时保持高图像保真度和现实性。为此,我们提出了一种综合评估设计,包括用于音频-视觉同步质量的SyncNet[9]分数,用于源面部和驱动面部之间肌肉激活一致性的动作单元(AU)检测[3](通过OpenFace[4]),以及基于图像真实性、保真度和同步一致性的多样化用户研究。
SyncNet[9]通常用于验证唇部同步和面部动画任务的音频-视觉一致性。在这个实验中,我们使用预训练的SyncNet模型计算每种比较方法生成的语音驱动面部序列的音频同步偏移和置信度(表1)。更高的置信度值更好。
我们使用OpenFace[4]的动作单元(AU)检测模块计算提供音频信号的源视频和相应的生成结果的面部动作单元。该指标旨在评估源面部和驱动面部之间的肌肉激活一致性。理想的说话头应执行与源面部相似的面部运动。我们选择下部面部和口部相关的AU作为活动主体,并计算源面部和驱动面部之间的平均误差。定量结果如表1所示。
最后,我们进行了用户研究比较,借助30名参与者。每位参与者被要求根据三个主要方面对100个视频片段(来自Thies等人[43]的9个,来自Suwajanakorn等人[41]的11个,以及来自三种图像基方法[53, 7, 46]和我们的20个)的说话头生成结果进行评分:音频-视觉同步质量、图像保真度和图像真实性。生成结果的头部姿势来自训练集之外的模板视频片段。我们收集了1到10之间的评分结果(越高越好),并计算每种方法获得的平均分数。处理后的统计数据如图7所示。
说话头编辑的应用
如第3.5节所述,我们的方法可以在音频信号、头部运动和背景图像上实现说话头视频编辑。首先,我们在图9中展示了同一视频在不同身份的音频输入下的音频驱动结果。我们可以看到,我们的方法在不同身份、性别和语言的任意音频输入下生成合理的结果。然后,我们在图10中展示了我们的方法的姿势操作和背景替换结果。我们可以看到,我们的方法允许调整观看方向和各种背景图像替换,以使用训练的神经辐射场生成高保真度的说话肖像。我们相信这些功能对于虚拟会议和数字人类等虚拟现实应用将非常令人兴奋。
5 限制
我们已经展示了AD-NeRF的高保真度音频驱动说话头合成。然而,我们的方法也有局限性。如补充视频所示,对于跨身份的音频驱动结果,由于训练和驱动语言之间的不一致,合成的口部部分有时看起来不自然。如图5和补充视频所示,有时躯干部分看起来模糊,因为头部姿势和音频特征不能完全确定实际的躯干运动。
6 结论
我们提出了一种基于神经辐射场的高保真度说话头合成的新方法。通过在两个精心设计的NeRF上使用体渲染,我们的方法能够直接从音频信号合成人类头部和上半身,而不依赖于中间表示。我们的训练模型允许来自不同身份、性别和语言的任意音频输入,并支持自由头部姿势操作,这些功能在虚拟会议和数字人类中非常需要。