员工选拔中语音情感识别评估共鸣的初步进展
立即解锁
发布时间: 2025-08-21 00:42:52 阅读量: 2 订阅数: 15 


智能计算理论与技术进展
### 员工选拔中语音情感识别评估共鸣的初步进展
#### 1. 引言与动机
自动语音情感识别是一个非常活跃的研究课题,具有广泛的应用。它可用于检测自动远程呼叫中心客户的不满情绪、监测飞机驾驶舱中飞行员的注意力水平、追踪情绪障碍患者的抑郁症状趋势、评估教师在课堂上的吸引力以提高教学质量等。
在工作面试中,分析语音韵律特征旨在发现考官与候选人之间的相互兴趣、同理心和共识,这种情感状态可定义为共鸣。其最终目标是通过元语言特征(面部表情、语音、身体姿势和手势)推断特定情境(如面试)中参与者之间的协同水平。语音情感识别在面试中起着关键作用,因为面试本质上是参与者之间的口语交流过程。
虽然语音情感识别已有一些有价值的研究成果,但面试中的语音情感状态识别仍面临一些特定挑战,如近实时处理、多主体参与和不同环境条件等。该研究提出的系统并非要完全替代心理学家的角色,而是作为人类评估的有益辅助,且具有潜在的新应用(如司法审讯)。
#### 2. 模型框架
情感识别系统的主要目的是评估候选人在工作面试中的积极或消极共鸣水平。为简化问题,假设面试是在单个候选人和一个或多个考官之间进行的对话,排除多个候选人同时参与的情况。面试过程中会记录候选人的语音、面部表情和身体姿势,最终决策将综合这三方面的信息。
系统需具备离线(面试后)和在线(面试中)处理能力,且要能在近实时条件下工作。此外,系统还需对多种可能的干扰因素具有鲁棒性,如环境噪声、音视频压缩、说话者性别或年龄、语言等。对于多个音频源叠加的问题,可采用盲源分离(BSS)技术(如独立成分分析)在情感识别前分离不同音频源。
系统主要由人机界面(用于获取和提取有用的音视频信息)、软件工具(用于处理和分类信息)和向考官展示输出结果的方式三部分组成。目前研究主要聚焦于软件工具,特别是算法选择,使用了免费的EmoDB数据库进行分析。EmoDB基于Ekman的研究对情感状态进行分类,演员通常在该数据库中表演与情感状态关联不大的句子。
#### 3. 算法描述
算法主要包括特征提取、降维和分类三个基本部分,具体如下:
- **特征提取**
- 语音特征是描述语音特性的瞬时或时间平均特征,其中音高(基频)最为重要。能量、能量分布、语速和频谱形状等特征通常逐帧提取,因为语音一般被视为非平稳随机过程。
- 为实现近实时处理,设定了最大延迟TL,它包括摄入输入音频、提取特征和做出分类决策所需的时间。TL应远大于帧持续时间Tf,以确保能收集足够的帧来提取统计信息。例如,当Tf = 0.06 s,TL = 1 s,帧重叠率为25%时,大约可获得64帧用于统计分析。
- 特征提取算法的一个重要步骤是参数调整。以音高提取算法为例,需设置静音和浊音/清音阈值以及合理的音高搜索区间;对于共振峰提取,要确定共振峰数量和上限频率;对于梅尔频率倒谱系数(MFCC),需设置滤波器的位置和间距等。通过比较原始音频和经过压缩/解压缩处理后的音频提取的特征,基于误差函数最小化来调整参数,使估计结果更稳定可靠。参数调整和特征提取后,对每个特征进行归一化处理,即零均值化并除以标准差。
- **降维**
- 训练分类器时减少特征数量有以下好处:满足分类器的泛化性、降低计算负担、提高分类系统性能。
- 采用了两种特征排序技术:信息增益(IG)和基于线性判别分类器的递归特征消除(SVM - RFE)。信息增益定义为按属性划分数据集合导致的熵的预期减少量;递归特征消除通过迭代训练分类器、对特征排序并移除排名最低的特征来实现。
- 对于多类分类问题,采用一对多方法分别对每个类别的特征进行排序,并采用胜者全得策略进行分类。还研究了主成分分析(PCA)等线性变换降维方法,但该方法需要评估所有原始特征,无法降低计算复杂度。最终根据线性SVM分类器的性能经验性地确定保留特征的阈值。
- **分类**
- 研究了两种分类方法:人工神经网络(ANNs)和支持向量机(SVMs)。
- 人工神经网络由简单的神经元组成,通过非线性函数激活输出。多层感知器神经网络(MLP)采用误差反向传播算法进行训练。
- 支持向量机通过优化决策边界使样本与边界的最小距离(即间隔)最大化。采用多项式核函数,并使用顺序最小优化(SMO)算法进行训练。对于多类问题,采用成对分类方法。
#### 4. 初步结果
- **数据集、工作环境和特征提
0
0
复制全文
相关推荐








