直觉式对话:从理论到实践
立即解锁
发布时间: 2025-08-29 11:23:46 阅读量: 10 订阅数: 12 AIGC 

# 直觉式对话:从理论到实践
## 1. 对话中的无意识变化与强调检测
人们在与不同对话对象交流时,往往意识不到自身的一些变化,比如音量的改变就很难被主动察觉。然而,信息的接收方却可能对这些音量变化极为敏感。例如,有些人在和小孩或配偶说话时,声音会不自觉地发生变化。自动语音识别(ASR)组件可以进行调整以实现强调检测。有研究基于这样一个重要理论框架:从低强调到高强调的频谱特征不仅存在于言语中(如过度清晰的发音和过高的音量),还存在于所有的交流方式中。特别是可以构建一个测试,来判断一个话语是否是向计算机发出的请求。其结果将是一个本能的对话对象传感器,多模态对话系统可以将其作为被动触发机制,用于系统主动发起对话等。
## 2. 识别情绪与心境
情绪和心境在相关心理学文献中已有讨论。现代基于技术的研究则更多地探讨了大脑中的情绪和心境。我们对情绪和心境进行了区分。在语音和身体图形方面,对于具身虚拟角色的情绪实现已有研究。有的研究使用更精细的规则,通过模仿、手势和面部纹理来实现情绪表达。心境则通过身体姿势和动作的动画来体现。
情感对话系统也有相关描述。此外,还有许多有趣的新项目致力于此。例如,“对话系统韵律”项目研究语音输入中韵律(即语音的节奏和旋律)在人机对话系统中的应用;“HUMAINE”项目旨在开发能够记录、建模和影响人类情感及相关状态和过程的系统;“EMBOTS”项目则创建诸如手势、眼神和姿势等非言语行为的逼真动画。
在基于语料库的语音分析中,发现上一轮对话中的识别问题与当前轮用户的情绪之间存在很强的关联。系统拒绝后,用户情绪激动的回合比预期更多。还有研究关注学生的不确定性建模,以改善包括学生学习、坚持性和系统可用性等性能指标,这也将用于制定直观对话响应的示例对话中。直观对话式界面的一个目标是根据个体用户进行定制,对话系统会根据本能获取的感官输入,直观地适应特定的用户模型。
## 3. 迈向直觉
在实现直觉方面,我们期望本能的交互代理能提供合适的感官输入。自然语言中的有用且协作的对话不仅要结合不同主题、异构信息源和用户反馈,还要有由本能交互代理发起的直观(元)对话。许多遵循对话约束的能力处于源于本能或直觉的能力之间的灰色地带,相关方面如下:
- **个性化定制**:本能和直观的对话界面应根据个体用户进行定制。对话系统会根据本能获取的感官输入,直观地适应特定的用户模型。
- **对话对象识别**:通常可以直观地区分不同的对话对象,不仅可以通过提高话语的清晰度,还可以通过识别预期的对话对象(例如,为远处的对话者增大音量)。在这种情况下,眼神是一个关键的感官输入。
- **隐式线索利用**:直观对话意味着使用用户的隐式交流线索(即用户未给出明确指令)。此时,直觉可以定义为对以用户为中心的阈值的估计,用于检测系统何时被呼叫,以便自动参与、处理对话系统中语音识别输出后的请求并最终做出响应。
- **直观输入设计**:在以人类为中心的交互设计和模型中,我们致力于构建可以直观使用的输入设备。拇指在现代社会中扮演着重要角色,成为人类主要的触觉交互方式。这种发展应在未来人机交互界面设计中得到体现。拇指感官输入与视图内/视图外识别相结合以触发语音识别激活,对用户来说非常直观,也反映了对话系统向直觉能力发展的本能能力。
- **直观问题反馈**:直观问题反馈是本能和直观对话式界面的最后一个方面(生成方面)。例如,当用户询问“1990年的世界冠军是谁?”时,系统会给出增强的释义“搜索:1990年男子足球项目的世界冠军队伍或国家”。概念图标(如电影、书籍、进球或足球比赛等概念的图标)以一种独立于语言的直观方式呈现反馈,展示对问题的理解和答案。太阳图标可以补充文本天气预报结果,传达天气状况信息。
直觉可以被视为本能的对话,也可以被看作是认知上更高级的本能。
## 4. 直观对话的定义与挑战
最初对直觉的定义——通过推理、观察、理性或经验无法获得知识的能力——在技术人工智能系统的背景下是站不住脚的。前面的例子表明,直观行为实际上是通过推理或观察实现的。我们认为直觉基于推理、观察、理性或经验,但这个过程在人类中是无意识发生的。这使我们能够利用技术(元)认知架构来构建直觉的技术模型,基于多模态对话系统中对情绪和心境的感知以及语言信息。
心境识别主要在手势和姿势的背景下进行研究。例如,无聊有一些视觉手势指标,如看手表、打哈欠、身体上部弯曲的姿势以及懒散或缓慢的基本动作。然而,无聊表情的模仿比基本情绪的模仿更难描述。自动面部表情识别方法在检测这些表情时存在困难,即使分析面部肌肉单元的时间行为也不例外。一些3D线框面部模型可以区分快乐和愤怒以及遮挡的面部,但对于更复杂的表情,无法达到所需的准确性。人类却能轻易地在水彩画中检测出渴望和无聊等情绪,正确解读这些非言语行为信号对于多模态对话
0
0
复制全文
相关推荐









