相互协调的预期多模态交互研究
立即解锁
发布时间: 2025-08-22 01:17:09 阅读量: 1 订阅数: 3 


人类与机器交互的多模态分析
### 相互协调的预期多模态交互研究
#### 1. 引言
虚拟人类基于人类(表达性)行为模型的实现,这些模型用于驱动虚拟人类与人类“用户”之间的交互。然而,人类行为不能简单地理解为执行预设程序或一组条件规则。人类活动的目标是实现“自我”,行动的实现依赖于其他主体的行动,交互是涌现的,并非计划行动的结果。
在虚拟人类和对话系统的开发中,多年来大多采用了Sacks等人提出的轮流发言框架。该框架规定一次只有一个发言者,发言者轮流发言,下一个发言者的轮次通常无缝衔接上一轮次等。在对话系统中,这导致了模块的明确流水线排序:先感知对话者的话语,然后解释话语,接着系统进行决策选择合适的反应,最后产生反应。
但从“轮流发言”的理论观点来看,反馈或反向渠道被视为处于主要对话之外,用于调节轮流过程,而非主要对话交流的一部分。而且,由于轮流范式更注重言语,发言者和倾听者持续的非言语表达难以在轮流模式中找到合适位置。因此,处理倾听者言语和非言语反馈的系统开发者率先转向了其他交互模型。
我们的研究完全摒弃了规定性的轮流发言模型概念,设想构建一种对话系统,实现双方的双向同时交互,即感知和产生过程在对话双方同时进行。这就需要紧密的时间协调,包括对齐和同步。同时,我们还需要考虑预期和预测模型在交互中的作用,以及虚拟人类多模态表达的规划、执行和动画实现等问题。我们的研究旨在集成到敏感人工倾听者(SAL)系统中,灵感源于与用户和系统(虚拟人类)持续交互的三个应用:舞者、虚拟音乐指挥和物理治疗师。
#### 2. 对话中的同步与交互
在游戏、正式社交活动、商务会议和交通等场景中,轮流的概念很常见,且轮次是预先分配的。但在随意对话中,发言者的轮次并非预先分配,参与者会“局部管理”下一个发言者是谁。
Sacks、Schegloff和Jefferson(SSJ)提出了一个描述轮流发言如何进行的模型。该模型能解释随意对话中的一些现象,比如相邻发言者轮次之间的时间通常较短,发言者重叠情况不常见。在SSJ系统中,当前发言者可以决定下一个发言者,若不指定,倾听者会自我选择。重要的概念包括轮次构建单元(TCU)和相关过渡位置(TRP),倾听者通常会等待发言者完成一个TCU后才接管轮次。TCU是语义或信息完整的短语,且常以音高和能量的明显升降结束,倾听者能识别TCU并预测其结束时间。
Carol Sanders在论文中提到,倾听者与发言者同时“说话”,即构思共同探讨的想法,这有助于理解回应时间短和轮次过渡中间隙短甚至无间隙的现象。但对于SSJ理论,存在不同看法。有些人认为对话参与者必须遵守其轮流规则才能成功对话,而另一些人则指出参与者自己决定对话的展开方式。Cowley和O’Connell等人批评轮流传统将描述性范式误当作规定性模型。Coates认为在某些情况下,“自由参与”的隐喻更合适,此时重叠发言是参与者积极参与的信号而非对话故障的信号。Bavelas等人也赋予了倾听者更积极的角色,使其不仅能表示关注和理解,还能通过特定回应为
0
0
复制全文
相关推荐









