相互协调的预期多模态交互:应用、同步与架构
立即解锁
发布时间: 2025-08-22 01:17:09 阅读量: 1 订阅数: 3 


人类与机器交互的多模态分析
### 相互协调的预期多模态交互:应用、同步与架构
#### 1. 相互协调的多模态交互应用示例
在多模态交互领域,有三个典型应用展示了虚拟人类与人类用户之间的相互协调。
- **交互式虚拟舞者**:HMI开发的一款应用中,虚拟舞者邀请真实伙伴一起跳舞。它能与人类用户同步舞蹈动作,根据音乐节拍调整自身动作。系统通过舞蹈垫记录用户脚部动作,利用计算机视觉系统获取手臂和身体动作信息。虚拟舞者会根据用户的舞蹈风格做出反应,处于“跟随”模式时,会调整舞蹈动作以适配用户风格;处于“引导”模式时,会引入新风格的舞蹈动作以引发用户反应。
- **交互式虚拟指挥家**:设计并实现的虚拟指挥家能够实时指挥现场音乐家并做出反应。它具备所指挥音乐的知识,能将这些知识转化为手势。在音乐演奏过程中,通过音频处理算法提取特征,并根据乐谱知识做出反应,以引导音乐家达到正确的节奏。如果音乐家演奏过慢,虚拟指挥家会加快指挥节奏,直至达到正确节奏。为实现这一点,它会持续预测音乐家接下来几拍的演奏情况,从而协调自己的指挥行为。
- **交互式虚拟训练师**:反应式虚拟训练师(RVT)能够向人类展示体育锻炼动作,监测用户并提供反馈。其反应性体现在自然语言评论、调整节奏、指出错误或重新安排锻炼计划等方面。锻炼可以配合用户喜欢的音乐节拍进行,包含运动动作、声音(如拍手、跺脚)、语音和音乐等多种模态的行为。RVT可以与用户一起进行锻炼,根据用户的表现调整节奏,或者在用户节奏滞后时尝试引导用户。
以下是这三个应用的对比表格:
| 应用名称 | 功能 | 协调方式 |
| ---- | ---- | ---- |
| 交互式虚拟舞者 | 与人类用户共舞,根据音乐节拍和用户风格调整动作 | 根据用户舞蹈风格切换“跟随”和“引导”模式 |
| 交互式虚拟指挥家 | 实时指挥音乐家,调整节奏 | 预测音乐家演奏情况,调整指挥节奏 |
| 交互式虚拟训练师 | 展示锻炼动作,监测用户并提供反馈 | 根据用户锻炼表现调整节奏或引导用户 |
#### 2. 相互协调:预期同步
在上述三个应用中,行为表达需要与对环境(舞者和音乐)或对话者行为(训练师、指挥家)的感知预测同步,这就是“预期同步”。
- **人类反应时间与交流行为时间尺度**:人类语音反应的最小时间因任务不同而有所差异。高度准备的受试者语音反应时间为200毫秒;在复杂且有干扰的任务中,最小反应时间在200 - 500毫秒之间;涉及词汇查找的任务,反应时间为700 - 800毫秒。而某些交流行为的实际发生时间尺度更短,如一些对话的响应延迟在300 - 600毫秒之间,内容反馈在500 - 1000毫秒内,话语间隙很多低于200毫秒甚至100毫秒。这表明人类会预期对话者表达的时间,以匹配自己的回应。
- **预期同步的作用**:在人类交流中,能够预期性地协调自己的行动与对话者的行动相关,这与对对话伙伴和互动效果的积极评价有关。在人类 - 计算机交互中,精确的时间关系也很重要。例如,视频会议中的传输延迟会破坏对话的轮流机制,导致音频冲突和交互性降低。即使延迟未被察觉,也会对社交产生影响。在人类与虚拟人类的交互中,交互同步同样有效,如回声式哼唱模仿对情感感知有积极影响,模仿动作能使虚拟人类更具说服力。
- **实现预期同步的挑战**:在正常对话中,要实现预期同步并非易事。上述应用中,音乐或健身锻炼定义了节奏结构,可作为预测对话者行为时间的起点。但在正常对话中,没有音乐或外部定义的节奏作为中介。因此,若要在对话中实现预期同步,需要寻找方法来建模说话者的节奏,预测对话者可以同步的时间。这种模型不一定基于节奏或节拍脉冲,也可以是诸如轮替延迟或振荡器等概念。
以下是人类反应时间和交流行为时间尺度的关系图:
```mermaid
graph
```
0
0
复制全文
相关推荐










