语音情感感知与合成:从人类到机器
立即解锁
发布时间: 2025-08-22 01:17:12 阅读量: 1 订阅数: 3 


人类与机器交互的多模态分析
### 语音情感感知与合成:从人类到机器
在语音技术领域,情感的感知与合成是一个极具挑战性和潜力的研究方向。本文将深入探讨人类语音情感感知实验以及自动语音情感识别的相关内容,同时介绍利用特定情感语音库存进行富有表现力的语音合成的研究。
#### 人类语音情感感知实验
为了研究人类对语音情感的感知,研究人员开展了一系列实验。实验中,受试者通过耳机听取情感语音录音,并在每次听完后选择他们所识别出的情感。使用专门为主观测试开发的软件播放录音,该软件会随机打乱录音的播放顺序,确保受试者不会连续听到同一说话者的录音,避免习惯某个人表达情感的方式。
实验分为三个阶段:
1. **第一阶段**:受试者单独听取一系列情感句子。
2. **第二阶段**:在听取同一说话者和句子类型的中性句子后,再听取情感句子。
3. **第三阶段**:再次播放打乱顺序的情感句子录音(无参考句子)。
为避免疲劳影响,实验过程中安排了两次短暂休息,整个听力测试持续约30 - 40分钟。
实验结果显示在图2 - 4中。研究的一个目的是确定情感句子前的中性句子是否有助于人类情感识别。结果表明,听众在有中性句子辅助时能更好地识别所有情感,但标准差的量级使得这种提升并不显著,这意味着情感句子本身可能就包含了识别其情感所需的几乎所有信息。同时,学习效应并未对结果产生显著影响,因为第三轮听力测试的结果与第一轮相比,在标准差的量级范围内没有太大差异。
|情感类型|识别情况|
| ---- | ---- |
|最佳识别情感|悲伤、厌恶/轻蔑、愤怒|
|次佳识别情感|惊讶、快乐|
|最差识别情感|恐惧、紧张|
此外,将本次主观听力测试结果与之前匈牙利的一项情感感知研究结果进行了比较。之前的研究使用专业演员进行录音,而本次研究使用了非专业说话者。有趣的是,两者的结果没有系统性差异。专业演员在表达快乐和愤怒时更容易被识别,而其他情感在非专业说话者的表达中识别效果更好,但差异并不显著。这一发现对于未来规划新的情感数据库具有重要意义,因为可以省去聘请演员的费用。
#### 自动语音情感识别
自动情感识别的目标是根据语音信号的某些可测量属性,估计其包含的离散情感符号。在这个过程中,首先需要通过特征提取将可识别的语音特征用可测量的参数进行表征。目前,基频和能量(强度)的时间历程是语音情感研究中最常用的特征。
在特征提取方面
0
0
复制全文
相关推荐









