具身对话代理的多模态反馈信号研究
立即解锁
发布时间: 2025-08-21 00:37:33 阅读量: 3 订阅数: 8 


虚拟代理与智能交互系统进展
### 具身对话代理的多模态反馈信号研究
#### 1. 引言
在人机交互领域,过去二十年来众多研究者致力于开发具身对话代理(ECA),它是一种能以类人方式与用户互动的虚拟人形实体。为了与用户进行自然交互,对话代理在说话和倾听时都需展现恰当行为。本文聚焦于倾听者的行为,特别是对话中对方给出的反馈信号。Yngve 引入了“反馈通道(backchannel)”这一术语,指在说话者发言时提供的非干扰性声学和视觉信号。根据相关研究,声学和视觉反馈通道能传达感知、注意力、兴趣、理解、态度(如信念、喜好)和接受等基本交流功能的信息。
此前的研究主要针对视觉模态的单模态反馈信号进行了感知研究,结果用于构建反馈信号库(反馈通道词典),供 ECA 的倾听模块使用。然而,反馈通道不仅通过视觉模态提供,还可通过语音发出辅助语言、单词或短句。本文旨在通过在 ECA 的反馈通道中引入多模态信号来改善用户与代理的交互,并开展了一项感知研究,以更好地理解用户如何解读多模态反馈通道。
这项工作是敏感人工倾听代理(SAL)项目的一部分,该项目属于欧盟 SEMAINE 项目。其目标是构建一个自主对话代理,在倾听用户时展现恰当行为,鼓励用户交流并引导其进入特定情绪状态。
#### 2. 相关工作
过去对 ECA 的研究为反馈通道模型的实现提供了初步方法:
- K. R. Thórisson 开发了名为 Gandalf 的会说话的头部,能使用言语和视觉信号(如简短话语或点头)与用户交互。
- REA(房地产代理)能提供辅助语言(如“mmhmm”)、点头或简短陈述(如“我明白了”)等反馈信号,用于向用户展示房屋特征。
- Gratch 等人开发的“融洽代理”在倾听时仅提供视觉反馈通道,通过分析用户的视觉行为和语音特征来决定何时触发反馈通道及显示何种信号。
- Morency 等人提出通过机器学习方法寻找影响代理反馈通道时机的说话者多模态特征,对上述系统进行了改进。
- Kopp 等人提出了基于推理和决策处理的反馈通道模型,根据代理的意图、信念和愿望来规划反应方式和时机。
这些模型考虑的多模态反馈信号数量有限,且其交流功能未明确界定。本文旨在引入大量发声来生成多模态反馈通道,并明确这些信号在 ECA 展示时所传达的含义。
#### 3. 多模态反馈通道
##### 3.1 视觉信号
首先,为代理赋予在倾听用户时提供视觉反馈信号的能力。从文献中选取与倾听者反应相关的十二个常见含义,并进行感知研究,以了解用户如何将这些含义与虚拟代理展示的一组视觉反馈通道关联起来。评估结果用于定义倾听者交流功能与一组视觉信号之间的关联,每个关联代表代理反馈通道词典的一个元素。在 SEMAINE 项目中,添加了新的视觉信号。由于 SAL 提供四个具有不同情绪特征的代理,反馈通道词典通过引入每个代理特有的信号得到扩展。例如,愤怒且激进的 Spike 在点头表示同意时也会皱眉。
##### 3.2 为文本转语音(TTS)添加发声反馈通道
发声反馈通道在交流倾听者意图方面也起着重要作用。为了生成发声反馈通道,ECA 应能使用与说话相同的语音。由于 SEMAINE 项目已使用 MARY TTS 中的表达性语音,本文工作需要为 TTS 添加新功能,即生成发声反馈通道。
为了收集自然的倾听者发声数据库,除了语音合成录音外,还与一名专业英国女性演员进行了约 30 分钟的自由对话录音,该演员此前参与了快乐表达性语音合成数据库的录制。演员被要求主要扮演倾听者角色,倾听者发声在时间轴上标记并转录为单个(伪)单词,如“myeah”或“(笑声)”。对话语音包含 174 个演员的自发倾听者发声,其中最常见的分段形式有“yeah”、“(叹息)”、“(笑声)”、“mhmh”、“(喘息)”、“oh”等。
为了实现 ECA 的唇同步,需要对语音进行语音对齐。由经过语音训练的学生助手为所有发声提供手动标记的语音分段标签,这些标签包含每个语音段的时间戳和相应的语音描述。对于具有音位结构的发声(如“myeah”),这种方法适用,但对于笑声、叹息或快速吸气等发声则存在问题,此时基于视位的口型只能作为自然行为的粗略近似。此外,还对语调、语音质量和含义进行了标注。MARY TTS 框架得到扩展,可根据 XML 请求生成倾听者发声。TTS 系统存储每个发声的录制音频以及语音分段标签和代表分段形式、语调、语音质量和可能含义的特征,运行时合成时,通过成本函数选择最适合给定标记的发声。
#### 4. 系统概述
系统基于 SEMAINE API 实现,这是一个用于实时交互系统的分布式多平台组件集成框架,通信通过消息中间件 ActiveMQ 进行。系统架构如图 1 所示:
```mermaid
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(原始用户输入):::process --> B(特征提取器):::process
B --> C(分析器):::process
C --> D(解释器):::process
E(倾听者意图规划器):::process --> F(动作选择):::process
F --> G(行为规划器):::process
H(音频合成)
```
0
0
复制全文
相关推荐









