语音情感识别研究:从真实数据到元音特征提取
立即解锁
发布时间: 2025-08-22 01:17:12 阅读量: 1 订阅数: 3 


人类与机器交互的多模态分析
### 语音情感识别研究:从真实数据到元音特征提取
在当今科技发展的浪潮中,语音情感识别技术逐渐成为了一个备受关注的领域。它在人机交互、智能客服、心理健康监测等众多方面都有着广泛的应用前景。本文将深入探讨语音情感识别的相关研究,包括基于真实世界数据的说话人无关情感识别,以及利用元音特征提取进行表演式情感识别的新方法。
#### 说话人无关情感识别:真实世界数据的挑战
随着语音对话系统的广泛应用,了解用户的情感状态对于实现成功的人机交互至关重要。在面向广大公众的各种应用中,如呼叫路由器、语音门户、智能家居系统和访问控制应用等,用户群体是潜在无限的,这就要求进行说话人无关的情感识别,特别是对负面情绪的检测。
##### 系统描述
负性情绪状态检测器的工作流程包括对语音记录进行预处理和特征提取。提取的特征向量包含12个MFCC系数(不包括第0个系数)、基频、帧能量和谐波噪声比(谐波性)。基频和谐波性使用Boersma算法计算,MFCC则根据Davis和Mermelstein的方法计算。MFCC和帧能量在25ms的时间窗口内计算,步长为10ms;基频和谐波噪声比的计算分别使用40ms和80ms的帧大小。
这个15维的特征向量用于区分静音、浊音和清音语音,检测器仅使用浊音语音帧,因为它们包含了语音中大部分的情感线索。在训练阶段,使用带有情感标签的语音话语来创建说话人无关的情感模型,通过训练对角协方差矩阵高斯混合模型(GMM)实现。初始化时采用k-means聚类算法,随后通过多次EM迭代来优化模型参数,迭代次数取决于数据分布和指定的误差减小阈值。最终得到两个情感模型:一个表示负性情绪状态($n\lambda$),另一个表示非负性情绪($p\lambda$)。在操作阶段,利用这些模型计算输入数据的对数似然,并通过对负性和非负性模型的对数似然比应用阈值来判断输入话语的情感内容。
```mermaid
graph LR
A[语音记录] --> B[预处理和特征提取]
B --> C[15维特征向量]
C --> D[静音/浊音/清音分离]
D --> E[仅保留浊音帧]
E --> F[训练阶段]
F --> G[创建情感模型$n\lambda$和$p\lambda$]
E --> H[操作阶段]
H --> I[计算对数似然]
I --> J[应用阈值判断情感内容]
```
##### 语音语料库
为了研究真实世界数据与表演式语音的差异,实验使用了多个语料库。LDC情感韵律语音和转录数据库包含英语表演式语音记录,由8名演员(5名女性和3名男性)在15种不同情感状态下说出四音节日期和数字,涵盖了多种情感类别。柏林情感语音数据库包含约500条德语话语,由10名演员(5名男性和5名女性)说出,涵盖了快乐、愤怒、焦虑等多种情感。真实世界数据则是希腊语记录,来自普通用户与智能家居对话系统的交互。42名参与者在25分钟的会话中进行了录音,其中29个会话(14名女性和15名男性)进行了手动标注。标注过程分为三个阶段:首先由一名标注者对每个话语的情感状态进行标注,并标记用户发出的命令;然后由六名标注者根据直觉进行标注;最后对于标注者存在显著分歧的1179个话语,由三名专家进行强制分类。
| 语料库 | 语言 | 演员数量 | 情感类别 | 采样率 |
| ---- | ---- | ---- | ---- | ---- |
| LDC | 英语 | 8 | 15种 | 8kHz |
| 柏林 | 德语 | 10 | 多种 | 8kH
0
0
复制全文
相关推荐










