人机面部表情共存

原创于 2025-08-14 01:54:06 发布 · 704 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#算法

人机面部表情共存

胡余杭 ORCID,陈博元 ORCID,林炯 ORCID,王云哲 ORCID,王英科 ORCID，卡梅伦· 梅尔曼 ORCID和霍德· 利普森 ORCID作者信息及所属机构

科学机器人

2024年3月27日

第9卷，第88期

DOI: 10.1126/scirobotics.adi4724

通知书签

编辑摘要

人形机器人能够感知人类情绪，并在人类完成表情后做出反应，从而模仿人类表情。然而，与与同伴同时出现的微笑相比，延迟出现的微笑会显得不自然和不真诚。Hu等人训练了他们的拟人面部机器人 Emo，使其能够展现与人类同伴相似的预期表情。Emo 配备 26 个马达和柔性硅胶皮肤，可精确控制其面部表情。该机器人使用人类表情视频数据集进行训练。通过观察人类面部的细微变化，机器人能够在人类微笑前 839 毫秒预测即将出现的微笑，并调整面部表情使其同步微笑。——梅丽莎·亚辛斯基

抽象的

大型语言模型推动了机器人语言交流的快速发展，但非语言交流却未能跟上步伐。实体人形机器人难以通过面部运动进行表达和交流，主要依赖语音。挑战在于：首先，驱动一个表情丰富的机器人面部在机械上具有挑战性。其次，如何让机器人展现出自然、及时和真诚的表情？我们提出，通过训练机器人预测未来的面部表情并与人类同时做出这些表情，可以缓解这两个障碍。延迟的面部模仿看起来不真诚，而面部共表情则感觉更真实，因为它需要正确推断人类的情绪状态才能及时做出。我们发现，机器人可以学会在人类微笑前约839毫秒预测即将到来的微笑，并利用学习到的逆运动学面部自我模型，与人类同时做出微笑。我们用一个包含26个自由度的机器人面部演示了这种能力。我们相信，同时做出面部表情的能力可以改善人机交互。

注册科学机器人电子目录

获取《科学机器人》的最新目录并直接发送给您！

报名

介绍

很少有姿态比微笑更能让人产生喜爱。但当两个人同时对视微笑时，效果会被放大：这不仅是彼此的感受，而且双方同时露出微笑，很可能能够提前正确地推断出对方的心理状态。这种认知上的肯定进一步巩固了情感纽带，表明双方“心意相通”（1-3 ）。诸如同时微笑之类的社会一致性行为对于成功的社交互动至关重要，因为它们表明了相互理解和共同的情感（4-6 ）。简而言之，如果微笑是同时出现的，那么它更有可能是真诚的（7）。

面部表情已在心理学、神经科学和机器人技术等各个领域得到广泛研究。对于某些面部表情，观察他人的面部运动会无意中产生自发的类似面部运动（8-11 ）。例如，两个人同时微笑所营造的氛围通常可以反映出交流的和谐与真诚（12）。然而，必须注意的是，这种镜像并不具有普遍性。在社会失调的情况下，可能会出现对比鲜明的面部反应，例如用恐惧回应愤怒（13）。某些表情难以察觉的微妙同步是一种能力，它可能具有巨大的进化优势，因为它可以促进社会凝聚力和相互理解——这两者对于群体生存都至关重要（14）。在日常交往中，如果一个人在其他人齐声微笑时露出迟疑的微笑，那么这可能会被认为是虚伪或顺从的。

在不同年龄、种族和文化背景下，人们常常通过相似的面部动作表达相似的心理状态 ( 15 )。然而，值得注意的是，有大量证据表明，面部表情的展现和感知都存在文化差异。尽管面部动作在某种程度上可能得到普遍认可，但表达和解读面部动作的方式在不同文化中可能有所不同 ( 16 , 17 )。此外，跨种族和跨年龄的差异会进一步影响对这些表情的感知。例如，年轻人对某些面部暗示的解读可能与老年人不同，一个种族背景的人在看到另一个种族背景的人的面部表情时，可能会有不同的感受 ( 18 , 19 )。人们通常认为，面部表情往往反映内心的情绪，导致表情形成和情绪体验几乎同时发生 ( 20 , 21 )。然而，包括 Barrett等人的研究在内的近期研究( 22 , 23 ) 表明，这种关系并不总是简单的，并且会因多种因素而变化。因此，我们认识到，以下工作仅仅触及了非常复杂和强大的人机交互模式的表面（24，25）。

在人机交互领域，我们认为预期面部表情至关重要。目前，大多数机器人只能感知人类情绪，并在人类完成表情表达后做出反应（26）。这种反应性表情缺乏预期表情所具有的真实性和即时性。如果机器人只能在人类表情出现后才进行模仿，则无法完全融入人类的社会环境，因为这种反应延迟会被认为是人为的、难以理解的。

为了让机器人被视为真正的情感智能，它们必须能够预测面部表情。这对于微笑来说尤其重要，因为微笑在社会联系中起着至关重要的作用。如图 1C所示，模仿微笑和预期微笑形成了鲜明的对比。预期微笑是通过理解和预测对方的情绪状态而产生的，对于建立真正的人机情感联系至关重要。机器人中的预期模型可以使人机交互更接近人与人之间的交互，弥合社交沟通中的差距，并带来更加集成化和情感智能的机器人系统。

在查看器中打开

图 1.面部共表情过程。

( A ) 同时输出示例。( B ) 整体流程描述。在时间t 0 时，人脸处于平静（基线）状态，时间t n时的表情是面部表情变化加速度最大的时候。未来的目标面部（tm）与平静面部的差异最大。检测到峰值激活后，从t 0到t n提取的特征点被连接起来作为预测模型的输入。逆模型将标准化的面部特征点作为输入，并输出一组由控制器执行的运动命令。( C )第一行说明了面部共表情的过程，其中机器人使用预期模型与人类参与者同时产生面部表情。第二行显示了模仿基线，其中机器人生成与人类相同但有明显延迟的面部表情。每一行包含四个快照的序列，捕捉表情从开始到完成的进展。此视觉呈现凸显了通过预期面部表情实现的同步性和真实性，相比之下，模仿基线阶段的反应则较为迟缓。如需了解此互动的动态视图，请参阅影片 S1 中的视频演示。

展开更多

人类可以产生数千种不同的面部表情来传达无数微妙的情绪状态，这种能力是人类社交互动中最有力、最有效的界面之一（27 ）。在2019年冠状病毒病疫情期间，口罩遮挡了面部表情，使社交互动变得尴尬。与此同时，远程会议在开启摄像头后变得更加有效（28-30 ）。同样，一旦机器人能够展现丰富的三维（3D）面部表情，它们就能增强沟通能力，更有利于与人类建立信任。

尽管由于人工智能的发展，机器人在过去几年中取得了显著进步，但面部机器人领域的进展相对较小。面部电子动画需要复杂的硬件和软件设计。虽然过去的研究已经产生了令人印象深刻的类人面部机器人，但它们主要依赖于预先编程的面部动画（31-37 ）。这些表情通常是精心预先编程、调整和编排的，而不是自发的。面部机器人技术的最新发展集中在多样化和改善动态面部情绪表情（38、39 ），这是朝着创造更像人类的交互迈出的一步。

我们之前的机器人平台 Eva 是能够自我建模面部表情的机器人的早期范例 ( 1 )。然而，为了实现更令人信服的社交互动，机器人不仅必须学会预测自身的面部表情，还要学会预测与其交流的对话者（或智能体）的面部表情。

这里我们介绍了一种名为 Emo 的拟人面部机器人，与 Eva 相比，它的硬件有了显著的改进。Emo 配备了 26 个执行器（图 2），它们提供了更大的自由度，可以做出不对称的面部表情，而 Eva 的面部只有 10 个执行器。Emo 设计的一个主要区别是使用直接连接的磁铁来使可更换的面部皮肤变形，而不是使用 Eva 中使用的电缆驱动机制（鲍登电缆）。这种方法可以更精确地控制面部表情。此外，Emo 的眼睛里有嵌入式摄像头，可以实现类人视觉感知。这些高分辨率 RGB（红、绿、蓝）摄像头，分别位于每只眼睛的瞳孔内，增强了机器人与环境互动的能力，并更好地预测对话者的面部表情。除了这些硬件升级之外，我们还引入了一个由两个神经网络组成的学习框架——一个用于预测 Emo 自身的面部表情（自我模型），另一个用于预测对话者的面部表情（对话者模型）。我们的软皮肤人脸机器人拥有 23 个专用于控制面部表情的电机和 3 个用于控制颈部运动的电机。总而言之，这些改进使 Emo 与其前身 Eva 相比，成为一个截然不同、更加先进的面部机器人。我们还提出了一个升级的逆模型，使机器人在相同的计算硬件上生成运动指令的速度比上一代快五倍以上。我们展示了一个预测模型，可以实时预测对话者的目标面部表情。通过结合自我模型和预期对话者模型，机器人可以进行共表达。我们的方法可推广到 45 多名人类参与者。最后，我们介绍了如何使用这两个模型在我们的实体机器人上实现人机同步表达。

在查看器中打开

图2.机器人面部平台。

（A）设计概述。我们的面部机器人包含 26 个电机并使用位置控制。柔软的面部皮肤可以通过磁铁轻松连接到硬件机构。三个电机控制颈部在三个轴上的运动（滚动、俯仰和偏航）。十二个电机控制上脸，包括眼球、眼睑和眉毛。十一个电机控制嘴部机构和下巴。（B）磁性连接设计使机器人的面部皮肤可以轻松更换。（C）眼睛模块。（1 和 2）带磁铁连接的连杆控制眉毛。（3）上眼睑。（4）下眼睑。（5）眼球连杆。（6）眼球框架。（7）摄像头。（D）嘴部模块。（8 至 10 和 13）嘴部被动连杆。（11 和 12）2D 五杆机构的连杆。

结果

面部机器人设计

我们的成果是使用我们的拟人面部机器人实现的，该机器人配有 26 个执行器和可更换的柔软面部皮肤（图 2）。整个面部皮肤由硅胶制成，并使用 30 块磁铁连接到机器人硬件上（图 2A）。机器人面部皮肤可以更换为其他设计，以获得不同的外观和皮肤保养。例如，在图 2B中，我们将机器人的面部从浅蓝色改为带有螺旋标记的深蓝色。该机器人由三个子组件模块组成：两个眼睛模块、一个嘴巴模块和一个颈部模块。

眼部模块控制眼球、眉毛和眼睑的运动，如图 2C所示。每个眼框都配备了一个高分辨率 RGB 摄像头。眼框由两个电机通过平行四边形机构在俯仰和偏航两个轴上分别驱动。这种设计的优点是它在眼框的中心创造了更多的空间，使我们能够将摄像头模块安装在与人类瞳孔相对应的自然位置。这种设计促进了机器人与人类之间更自然的面对面互动。它还能实现正确自然的凝视，这是非语言交流的一个关键方面，尤其是在近距离交流时。电影 S2 提供了我们的机器人眼中装有摄像头来跟踪人们面部的视频演示。

嘴部的运动非常复杂。虽然大多数电子动画机器人脸通常只表现出简单的下颌运动，但我们的目标是通过机械结构复制人类嘴唇的复杂运动。为了解决这一挑战，我们设计了多个被动关节和连杆，以便当机器人嘴部移动时，柔软的皮肤可以在机械结构的被动自由度上弯曲，形成复杂但自然的变形。嘴部模块包含九个运动链，如图 2D所示。其中六个带有被动关节的运动链控制上下唇。两个五连杆控制嘴角的运动，最后一个连杆机构控制下颌的运动。我们在电影 S3 中提供了一段视频来演示嘴部模块和机器人整个硬件的运动。

生成机器人表情的逆模型

我们提出了一种自监督学习方法，用于训练我们的面部机器人生成人类面部表情，无需明确的动作编排和人工标注。传统的机器人控制方法依赖于运动学方程和仿真，但这仅适用于已知运动学参数的刚体机器人。我们的机器人拥有柔软可变形的皮肤和多个带有四个窝关节的被动机构，因此很难获得机器人运动学方程。我们利用一种基于视觉的自监督学习方法克服了这一挑战，在这种方法中，机器人可以通过观察镜子中的自身来学习运动指令与由此产生的面部表情之间的关系。

机器人的面部表情由 19 个电机控制，其中 18 个电机对称分布，还有一个电机控制下颌运动。在我们的案例中，面部数据集中的表情都是对称的；因此，对称分布的电机在控制机器人时可以共享相同的电机指令。因此，实际的控制指令只需要 11 个归一化到 [0, 1] 范围内的参数。

面部逆模型使用机器人自身生成的数据集（图3）进行训练，该数据集包含运动指令和由此产生的面部特征点。我们采用自监督的方式，通过随机“运动指令”收集数据。在将指令发送到控制器之前，该过程会自动删除可能撕裂面部皮肤或导致自碰撞的运动指令。当伺服电机到达指令定义的目标位置后，我们使用RGB摄像头捕捉机器人面部图像，并提取机器人的面部特征点。

在查看器中打开

图3.数据收集。

机器人通过摄像头观察自身，学习做出面部表情。我们在机器人前方设置了一个 RGB 摄像头，并随机采样运动动作来驱动面部机器人。这些运动动作受到限制，以避免发生自碰撞或撕裂柔软的面部皮肤。通过这个过程，机器人无需人工监督，就能学习运动指令与面部表情之间的关系。

给定运动指令和面部特征点的数据集，我们的目标是训练一个逆模型，该模型能够在给定面部特征点的情况下生成相应的运动指令。逆模型由多层感知器构成，这些感知器可以隐式地捕捉机器人的面部形态、弹性和运动学特征。每个数据元组包含完整的面部特征点集，用一个 113 × 2 大小的向量和相应的 11 个运动值表示。我们收集了 1000 个数据点，其中 200 个用于验证，其余 800 个用于训练。由于机器人面部上半部分的眼睛模块运动与下半部分嘴巴模块的运动相对独立，因此整个训练数据集可以分为两部分。可以通过分别从两个独立的子数据集中提取上半部分面部特征点（52 × 2）和下半部分面部特征点（61 × 2）并将它们组合在一起形成增强数据来增强训练数据。

我们通过将我们的方法与三个基线进行比较来评估逆模型的有效性。第一个基线是随机生成运动命令，第二个基线是从训练数据集中随机采样和比较命令。这两个基线都使用随机选择，但分布不同，因为我们用于生成逆模型数据集的命令是通过约束函数修改的。第三个基线是最近邻。它将地标与训练数据集进行比较，并直接使用最近地标的命令作为输出。我们使用 L1 度量来测量归一化到 [0, 1] 的运动命令的距离。图 4A展示了我们的逆模型评估的箱线图。逆模型生成的运动命令产生的面部表情比三个基线更准确。我们的模型成功地学习了运动命令与柔软面部皮肤形态和弹性之间的关系。

在查看器中打开

图4.评估。

( A ) 我们使用 45,200 个样本比较了逆向模型与其他基线模型的性能。( B ) 我们使用两种基线模型（随机搜索 (RS) 和拟态基线模型）来评估我们的预测模型的效果。我们测试了 214 种不同的表情，并使用面部特征点来测量误差。对于 (A) 和 (B)，我们都进行了详细的统计分析，包括计算标准差 (SD)、标准误差 (SEM) 和 95% 置信区间 (CI)。箱线图和直方图中数据分布的精确值已在补充材料中展示。

表达预期预测模型

为了使机器人能够做出真实且及时的面部表情，它必须提前预测面部表情，并给予其机械装置足够的启动时间。为此，我们开发了一个预测面部表情模型，并使用人类表情视频数据集对其进行训练。该模型能够根据面部表情的初始和细微变化来预测目标表情。

首先，我们使用每组面部特征点与每个视频中初始（“静止”）面部表情的面部特征点之间的欧氏距离来量化面部表情动态。我们将静止面部特征点定义为前五帧的平均特征点，将目标面部特征点定义为与静止面部特征点差异最大的特征点。静止面部特征点与其他帧的特征点之间的欧氏距离不断变化且可以区分。因此，我们可以通过特征点距离对时间的二阶导数来计算表情变化的趋势。预测模型的数据收集和训练过程的详细信息在补充材料中提供。我们使用表情变化加速度最大时刻的视频帧作为“峰值激活”。

为了提高准确率并避免过拟合，我们通过采样周围的帧来增强每个数据。具体而言，在训练过程中，预测模型的输入是从峰值激活前后共九帧中任意选取的四帧。类似地，标签是从目标人脸之后的四帧中随机采样的。该数据集共包含 45 位人类参与者和 970 个视频。其中 80% 的数据用于训练模型，其余用于验证。我们分析了整个数据集，得出人类通常做出一个面部表情的平均时间为 0.841 ± 0.713 秒。在没有 GPU 设备的 MacBook Pro 2019 上，预测模型和逆模型（仅指本文中使用的神经网络模型的处理速度）的运行速度分别约为每秒 650 帧 (fps) 和 8000 fps。此帧速率不包括数据捕获或关键点提取时间。我们的机器人能够在 0.002 秒内成功预测目标人类面部表情并生成相应的运动命令。这段时间内，机器人还剩下大约 0.839 秒的时间来捕捉面部特征点并执行运动命令，从而在机器人实体脸上产生目标面部表情。

为了定量评估预测面部表情的准确性，我们将我们的方法与两个基线进行了比较。第一个基线随机选择逆模型训练数据集中的一张图片作为预测。这个基线的数据集包含大量由运动牙牙学语生成的机器人表情图片。第二个基线是一个模仿基线，它选择峰值激活处的面部标志作为预测标志。如果峰值激活接近目标面部，那么基线可以与我们的方法非常有竞争力。然而，实验结果表明我们的方法优于这个基线，表明预测模型通过泛化面部的细微变化而不是简单地复制最后输入帧中的面部表情，成功地学会了预测未来的目标面部。图 4B展示了预测模型的定量评估。我们计算了预测标志点和地面真实标志点之间的平均绝对误差，地面真实标志点由尺寸为 113×2 的人类目标面部标志点组成。表格结果（表 S2）表明我们的方法优于两个基线，表现出更小的平均误差和更窄的标准误差。

将自我模型与预期模型相结合

该过程的最后一步是结合使用预测模型和逆模型，实现人机同步面部表情。这项任务与面部模仿不同，因为预测模型不会观察目标面部，因此任务首先是预测面部表情，然后快速生成预测的面部表情。

图 1B中描述的整体流程展示了机器人如何通过首先在中间帧的基础上预测人类目标面部表情，然后在目标表情出现之前的剩余时间内使用逆模型产生动作命令，从而同时生成与人类参与者相同的面部表情。

我们在 MacBook Pro 2019（Intel Core i9）上运行了这两个模型，并将电机指令发送给机器人控制器执行。整个流程以 25 Hz 的频率运行。我们将模型设计得非常轻量，因此我们的机器人无需依赖 GPU 计算或高性能服务器。这使得额外的计算能力可以用于未来的其他功能，例如聆听、思考和说话。

我们在实体机器人上同时运行了我们的方法和模仿基线，进行了一项实验。图 1C和表 S2 中的图表显示了两种方法的比较。在这个实验设置中，时间线开始于t = 0，这标志着机器人和人脸开始表情过程的起点。当t = n时，这代表机器人检测到峰值激活并开始预测人类面部表情的时刻。目标是在t = m时实现人机同时做出面部表情，其中m表示机器人旨在匹配人类面部表情的目标时间。

我们对图 5中所示的具有不同面部表情的各种人类参与者的视频进行了实验。性能是根据用于训练预测模型的测试数据集计算得出的。具有四个连续帧的列是预测模型观察到的输入帧。目标面孔列是机器人无法感知的目标面部表情。地面真实图片是直接输入逆模型以生成机器人目标面孔的标准化目标面部特征点。我们在物理机器人上启动了运动指令，并拍摄了机器人正面照片（如实际的最终机器人面孔列所示），以证明我们的方法成功地让机器人学会了仅使用面部最初的细微变化来预测人类目标面孔。结果还表明，我们的学习框架适用于各种人类参与者和多种面部表情。

在查看器中打开

图 5.结果可视化。

左侧四帧连续图像的面部特征点被输入到预测模型中。目标人脸帧的面部特征点是预测模型的标签。我们通过将人类目标人脸的面部特征点直接输入逆模型，推导出生成真实人脸的运动指令。每张图片右上角的数字是时间戳。预测图片是通过仅观察四个输入帧而得到的整个流程的结果。这些结果的更多示例可以在图 S4 中找到。

使用混淆矩阵评估面部表情预测

为了进一步评估机器人预测面部表情的性能，我们根据面部表情的预测命令构建了一个混淆矩阵。这里的主要任务是预测能够生成目标面部表情的命令。鉴于这些命令被标准化为0到1之间，代表机器人面部肌肉的激活程度，我们可以将每个命令分类为已激活或未激活。每个面部表情由一组11个运动命令生成，每个命令代表机器人面部肌肉的驱动程度。我们的数据集包含214个测试样本，总计2354个命令。

我们以平静的面部肌肉为参考点，并将目标面部命令与平静面部命令之间的 L1 距离大于 0.25 的样本定义为正样本。L1 距离和阈值 0.25 的选择是基于将命令标准化到 0 到 1 的范围；因此，范围在 ±0.25 之间的平静面部覆盖了一半的区域，即 0.5。相反，将 L1 距离在 0.25 以内的样本定义为负样本。如果预测命令与目标命令位于同一区域，则将其视为真；否则，将其归类为假。

图 6直观地展示了四个典型案例的预测过程及其与真实情况的比较。图 6A展示了一个真阳性案例，机器人正确地预测了平静面部表情会露出灿烂笑容。图 6B展示了一个假阳性案例，机器人错误地预测了笑容，尽管真实情况显示面部肌肉较为平静。图 6C展示了一个假阴性案例，机器人未能预测到实际出现的面部表情。最后，图 6D展示了一个真阴性案例，机器人准确地预测了表情与平静面部表情没有显著偏差。表 1显示，我们的模型在约 72.2% 的案例中正确预测了表情对应的面部肌肉激活情况。较高的阳性预测值表明，当我们的模型预测肌肉将被激活时，其正确率为 80.5%。然而，0.462 的假遗漏率和 0.446 的假阳性率表明，在最小化假阴性和假阳性方面仍有改进空间。

在查看器中打开

图 6.四种案例的直观表示。

( A ) 真阳性——正确预测大笑；( B ) 假阳性——错误预测微笑；( C ) 假阴性——未能预测实际面部表情；( D ) 真阴性——正确预测与平静面部没有明显偏差。

在查看器中打开

总人口=2354		预测状况
总人口=2354		积极的	消极的
实际情况	积极的	1307	338	森 = 0.795
实际情况	消极的	316	393	假阳性率 = 0.446
	累计 = 0.722	PPV = 0.805	交易价格 = 0.462	LR+ = 1.782

表1.面部表情预测的混淆矩阵。

混淆矩阵总结了我们的面部表情预测模型在总共 2354 个实例中的表现。它量化了模型预测表情过程中面部肌肉激活的准确率，成功率约为 72.2%。准确率。该表包含几个关键指标：阳性预测值 (PPV)、假遗漏率 (FOR)、假阳性率 (FPR)、灵敏度 (SEN)、似然比阳性率 (LR + )。

鉴于我们设置中的命令已标准化为 0 到 1 之间的范围，我们将平静的面部表情指定为原点。在这个标准化空间中，我们使用 L1 距离来测量目标面部表情的命令与原点平静面部表情的命令之间的偏差。之所以选择 L1 距离，是因为它具有可解释性，并且对命令维度的变化较为敏感。为了区分正样本和负样本，我们为 L1 距离设定了一个阈值。我们选择的阈值为 0.25，以确保平静面部表情区域（在原点 ±0.25 范围内）占总标准化范围（0.5）的一半。这个数字可以轻松地将显著的变化归类为已激活的命令。

讨论

我们展示了一款拥有柔软拟人化面部皮肤的面部机器人及其控制器，该控制器能够通过预测人类面部表情来同时做出各种表情。整体流程由两个神经网络组成：预测模型和逆模型。我们通过与其他基准模型的定量评估证明了这两个模型的有效性。结果表明，我们的预测模型能够成功预测各种目标人类面部表情，并且能够提前足够长的时间生成预测的面部表情，从而为机械装置提供充足的启动时间。

必须承认，在选择机器人要模仿的面部表情时必须谨慎。某些面部表情，例如微笑、点头和保持目光接触，通常会自然地得到回应，并在人类交流中被积极地感知（40、41 ）。相反，模仿撅嘴或皱眉等表情时应谨慎，因为这些表情可能会被误解为嘲笑或传达非预期的情绪（42）。

然而，值得注意的是，在某些情况下，模仿此类表情可以策略性地用于营造幽默感或缓解紧张气氛（43-45 ）。此外，在未来的研究中，重要的是要考虑到微笑的真诚性不仅取决于其预期性，还涉及特定的面部运动，例如杜兴氏标记，以及时间特征，例如维持率和衰减率（46）。

我们的主要贡献在于开发了用于实现预期面部表情的机器人硬件和学习算法。尽管已使用标准面部追踪指标定量验证了所提方法的有效性，但我们认识到，衡量成功的最终标准是人类用户如何感知这些表情。未来的一个重要步骤是验证这些表情在现实世界中各种情境下的人机交互中产生的情感效应，以确定其心理效度。这是我们未来研究的重点领域。

此外，本研究的局限性之一是模型在预测和模仿表情时可能缺乏文化敏感性。不同的文化可能对某些面部表情有不同的规范和含义（47）。例如，虽然在许多文化中，微笑通常被认为是幸福或友好的标志，但它也可能是尴尬或不确定的标志（48）。同样，在某些文化中，直接的目光接触可能被视为自信和诚实的标志，但在其他文化中可能被认为是粗鲁或对抗的（49）。未来的研究可以探索将文化背景融入模型，可能的方式是整合来自不同文化背景的数据集，并在算法中融入对文化规范的理解。

我们也承认，单凭面部模仿，即使同时进行，也远不能完全展现人类的面部沟通能力，而且如果由看起来像成年人的机器人来做，甚至可能会让人感到反感。然而，就像婴儿在学会独立做出面部表情之前会先学会模仿父母一样，我们相信，机器人必须先学会预测和模仿人类的表情，然后才能成熟到能够进行更自发、自主的表达性沟通（50）。

对其他领域的潜在影响

这项研究的潜在影响不仅限于机器人技术，还可能延伸到神经科学和实验心理学等领域。在神经科学领域，镜像神经元的研究提供了一个相关的例子。镜像神经元是一种脑细胞，当动物做出行为以及观察其他动物做出的相同动作时都会激发 ( 51 )。这些神经元与理解他人的行为、模仿行为和同理心有关 ( 52 , 53 )。能够预测和同步面部表情的机器人系统可用作研究镜像神经元系统的工具 ( 54 )。通过与参与者互动同时测量大脑活动，研究人员可以深入了解社交互动和沟通的神经相关性 ( 55 )。

在实验心理学中，理解面部表情至关重要，例如在自闭症谱系障碍 (ASD) 患者的教育和治疗中。ASD 患者通常难以解读面部表情 ( 56 )。能够预测和同步面部表情的机器人可以作为教育工具，帮助 ASD 患者发展更好的社交沟通技能。研究表明，机器人可以有效地吸引 ASD 儿童并促进社交互动 ( 57 )。

能够通过面部表情预测和识别情绪对于同理心也至关重要（58）。反过来，同理心是有效沟通和维持社会关系的基本组成部分（59）。因此，我们相信，能够在人们表达之前感知他们的情绪是制造更具社交能力的机器人的关键的第一步（60）。在本研究中，我们专注于开发能够预测面部表情的机器人脸，为更真实的人机交互奠定基础。理解和优化这种交互为治疗、教育和日常交流中的潜在应用铺平了道路。

伦理考量

最后，当我们反思机器人面部表情的进步时，我们仍然意识到与这项技术相关的伦理层面。随着机器人模仿人类行为的能力不断进化，它们获得了与人类建立更紧密联系的潜力（61）。尽管这种能力预示着从家庭助理到教育辅助等大量积极的应用，但开发人员和用户有责任谨慎行事并进行道德考量（62）。这种技术被滥用（例如欺骗或操纵）的可能性凸显了建立强有力的道德框架和治理的必要性，以确保这些创新与社会的价值观和福祉相一致（ 63、64 ）。

方法

数据表示

我们使用 Mediapipe ( 65 ) 从图片中提取面部特征点，因为特征点的维度比原始图像低，并且能够稳健地描述不同性别和种族的面部特征。为了实现自然的人机交互，机器人需要具备与人类相似的高速响应速度。降低观察维度有助于减少计算所需的时间，并防止人们因耗时的数据计算而失去耐心和兴趣。在我们的工作中，我们从 468 个原始面部特征点中选择了 113 个特征点来代表面部表情。

逆模型训练

逆模型采用机器人面部特征点或标准化的人体特征点来生成运动指令。运动指令由 11 个数字组成：两个用于眉毛，两个用于眼睑，六个用于嘴部，一个用于下颌。我们将所有运动动作值标准化到 [0, 1] 范围内。维度为 113 × 2 的输入特征点矩阵表示 113 个面部点在x轴和y轴上的位置。给定输入特征点，逆模型输出 11 个运动值，旨在模仿机器人面部的这些特征点。

逆模型具有三个全连接层（图 7A）。前两层使用的激活函数为双线性整流线性单元，最后一层为 Sigmoid 函数。使用 Adam 优化器（66）和 10 −6的学习率对模型进行优化，损失函数为均方误差。

在查看器中打开

图7.模型架构。

( A ) 逆模型架构。来自像素坐标中的面部关键点的扁平化输入数据通过三个完全连接层 (FC) 传输。第一个 FC 输出被送入修正线性单元 (ReLU) 和批量归一化 (BN) 处理，然后继续传输到下一个 FC ( 72 )。最后一个 FC 层使用 Sigmoid 激活函数将结果值映射到 0 和 1 之间。( B ) 预测模型架构。输入是大小为 4 × 113 × 2 的扁平化数据，由四组面部关键点组成。该模型有八个 FC 层，输出 226 大小的数据，可以重塑为一组面部关键点。前六个 FC 的输出在进入下一层之前进入 Tanh 激活函数。第 4 层和第 6 层之间的 FC 层具有跳跃连接，可以放大前一层的输出以保留原始数据的信息。

在数据收集阶段，机器人生成了对称的面部表情，我们认为这可以覆盖大部分场景并缩小模型尺寸。我们使用英特尔 RealSense D435i 采集 RGB 图像，并将其裁剪为 480 x 320 像素。我们记录了每个运动指令值和机器人图像，形成单个数据对，无需任何人工标记。

我们使用上述设置创建了两个数据集，每个数据集包含 1000 个机器人面部表情。在第一个数据集中，机器人仅移动眼睛和眉毛；在第二个数据集中，机器人仅移动嘴巴。之所以进行这种分离，是因为机器人面部的上半部分和下半部分可以独立驱动，总共产生 1,000,000 种组合。这种增强方法提高了我们训练模型的效率，同时也避免了机器人过度使用电机导致硬件问题。用于训练逆向模型和已训练模型的所有数据集均在补充材料中提供。我们将每组 1000 个表情分成 800 对用于训练，200 对用于验证。

预测模型训练

预测模型根据峰值激活后的一系列地标生成预测目标地标。该预测模型是一个残差神经网络，具有八个全连接层，并通过均方误差损失和 Adam 优化器进行优化（图 7B ）。在训练过程中，我们使用 10 −5的学习率和 128 的批次大小。

我们使用 MMI 面部表情数据库 ( 67、68 )构建了数据集来训练预测模型。该数据库包含 75 名年龄从 19 岁到 62 岁不等的人类参与者的 2900 个视频，做出了 79 种表情。人类参与者来自欧洲、亚洲或西班牙裔/拉丁裔。值得注意的是，虽然这个数据集提供了一系列面部表情和参与者种族的多样性，但它并不全面涵盖全球所有种族。训练数据集的选择受到我们机器人硬件功能的限制。例如，我们的机器人无法实现撅嘴、吐舌头和鼓起脸颊等面部表情，我们手动删除了这些数据以形成更能代表我们机器人功能的数据集。

在我们选择的 970 个视频中，756 个视频用于训练，214 个视频用于测试。由于每个参与者提供的视频数量各不相同（例如，参与者 #18 提供了 83 个视频，但参与者 #25 只提供了 2 个），我们选择以 80:20 的比例分割来自每个参与者的视频以进行训练和验证。这种方法使我们能够确保训练和验证数据的分布均衡且具有代表性，从而使模型性能更稳定、更可靠。在我们的补充材料中，我们使用不同的数据分割方法进行了另外两次五折交叉验证测试，以评估我们模型的性能。将数据分成训练集和测试集后，我们从峰值激活前后四帧的表情中提取了标志点。这产生了一个大小为 9 × 113 × 2 的单个输入数据，表示来自多个帧的连接标志点。每个标签数据的大小为 4 × 113 × 2，由从目标人脸框和后续三帧中提取的特征点组成。在训练预测模型时，我们从每个输入数据中采样了四组特征点数据，从标签数据中采样了一组特征点数据，以形成一个数据对。通过这种数据增强方法，理论上我们可以构建 1,629,600 对数据。逆模型和预测模型是用 Pytorch 实现的神经网络（69）。我们在补充材料中提供了有关预测模型训练的所有细节，包括数据集和训练好的模型。

预测模型数据生成

我们用人类面部表情视频训练了我们的预测模型。在本节中，我们将详细描述如何生成用于自动训练模型的数据。因为我们使用面部特征点来表示人脸，所以我们可以通过计算每帧中面部特征点与静止面部特征点之间的距离来量化人脸的变化。在图 7A中，我们利用 Savitzky-Golay 滤波器（70）来平滑原始数据曲线。与该平滑曲线的峰值相对应的帧被确定为目标面部，其与静止面部的偏差最大。然后，我们计算处理后的曲线的二阶导数来描述面部变化的加速度。这条新曲线的最大值就是峰值激活，如图8B所示。为了提高数据效率并使性能更稳健，我们在峰值激活附近采样数据作为输入数据，并将目标面部作为标签数据。

在查看器中打开

图8.训练预测模型的数据。

( A ) 原始数据包括每帧面部特征点与静息面部特征点之间的距离，使用均方误差 (MSE) 方法计算。静息面部特征点是五个初始帧的平均值。对原始数据进行平滑处理后，我们得到了一条蓝色曲线形式的处理数据。在训练预测模型时，我们从曲线上绿点所示的输入帧中采样输入数据，并从目标帧中采样一个作为标签。( B ) 面部变化的加速度。灰色点处的峰值激活是该曲线的最大值。

规范化算法

机器人的运动空间与人类不同，因此为了使由机器人人脸数据训练的模型能够满足人脸的输入数据，我们需要一个规范化过程，将人脸标志映射到机器人面部标志，如图 S1 所示。这是必要的，因为人的运动范围可能超过机器人的运动范围。此外，由于人脸运动空间因人而异，因此规范化过程可以产生更通用的结果。我们可以通过使用以下方程对人类标志LH进行规范化来获得机器人空间L R中的标志

if LH−Hs>0: LR=Min((Rmax−Rs),(LH−Hs))×K+Rs

（1）

if LH−Hs>0: LR=Min((Rmax−Rs),(LH−Hs))×K+Rs

（2）

其中Hs、Rs、Rmax和Rmin分别表示人类和机器人的静息面部表情以及逆模型数据集中界标空间位置的机器人值范围。K是调整界标映射比例的比例因子。这种归一化方法不同于我们之前的研究（71 ），其中不需要计算人类移动范围和机器人移动范围，因此机器人可以直接进行归一化，而无需从人类参与者那里收集此类先验（人类面部移动范围）。由于机器人和人类的表情将处于同一尺度，因此机器人学习人类表情将更加准确。

伦理批准和参与同意

本研究使用了第一作者YH的可识别图像，YH明确同意在不匿名的情况下发表这些图像。由于本研究未直接涉及其他人类参与者，因此更广泛的伦理审批要求不适用于本研究。

关于 MMI 面部表情数据库的使用，我们遵守了数据库最终用户许可协议 (EULA) ( 68 ) 中规定的要求。在用户注册并同意 EULA 的条件下，该数据库可供学术科学界免费用于非商业用途。该协议明确允许将数据库中包含的图像用于学术用途，包括出版和演示，前提是被描绘的参与者已授予此类使用许可。该数据库可通过http://mmifacedb.com访问，用户必须注册并同意 EULA 才能访问其中的资料。

通过专门使用已获得明确同意（来自第一作者）的图像并依赖符合伦理研究标准的开源数据库，本研究坚持学术研究中的同意和伦理原则。

统计分析

我们使用 Python（版本 3.9）进行统计分析。我们使用包含 45,200 个样本的数据集，将逆向模型的性能与三个基准模型（随机命令、随机人脸和最近邻搜索）进行了比较。同样，我们使用 214 种不同的表情（针对面部特征点进行测量）与两个基准模型（随机搜索和模仿）进行了比较，以评估预测模型的效果。对于这两种情况，我们通过计算标准差 (SD)、标准误差 (SEM) 和 95% 置信区间来详细分析统计，以确保对模型性能进行稳健评估。我们进行了t检验，以比较我们的方法与模仿基准模型之间的平均预测误差。我们使用 0.05 的显著性水平来确定这两个独立组的平均值之间是否存在统计学上的显著差异。为了评估预测模型的普遍性和稳健性，我们使用了五重交叉验证测试，测试方式有两种：基于视频样本和基于参与者。此外，我们构建了一个混淆矩阵来评估模型预测面部表情命令的能力，使用 L1 距离对面部肌肉的激活进行分类。

致谢

资金：这项工作得到了美国国家科学基金会 (NSF) 动态系统人工智能研究所 ( DynamicsAI.org ) 的资助（资助编号为 2112085）以及亚马逊通过哥伦比亚人工智能技术中心 (CAIT) 的资助。

作者贡献： HL、YH 和 BC 提出了这项研究。YH 设计了机器人。YH、HL、BC、Yunzhe Wang 和 Yingke Wang 设计了算法。YH、JL 和 CM 制造了机器人并进行了物理实验。YH 和 JL 进行了数值实验。YH、BC 和 HL 分析了数据。YH 和 HL 撰写了论文。所有作者都提供了反馈。

竞争利益：作者声明他们没有竞争利益。

数据和资料可用性：支持本文结论所需的所有数据均包含在正文或补充资料中。请联系 XX 获取资料。我们使用了部分来自公共数据库的数据：MMI 面部表情数据集 ( https://mmifacedb.eu/ )。该研究的代码库和数据集可在 Dryad | Data: Data and trained models for: Human-robot facial co-expression找到。