语音质量评估中的人类信息处理研究
立即解锁
发布时间: 2025-09-03 00:08:54 阅读量: 5 订阅数: 7 AIGC 

### 语音质量评估中的人类信息处理研究
#### 1. 语音质量感知与评估的基础概念
在语音传输过程中,语音质量会受到多种因素的影响,产生不同类型和程度的质量损伤。这些损伤在听众端表现为不同形式和强度的感知退化。可以从心理物理层面来理解语音质量感知,将基于传入感官信息构建的感知表征与先前形成的感知参考进行内部比较,可在心理物理上建模为确定感知空间内两点间欧几里得向量的长度,该向量的方向可表示质量变化的方向性(正或负)。
感知空间由多个维度构成,其中部分维度决定了感知质量,即感知质量维度。当内容变化与质量变化同时发生时,内容变化可能会掩盖质量变化,这可解释为内容维度的额外变化削弱或消除了质量维度的变化,甚至可能改变感知空间内距离计算的欧几里得度量。未来的质量预测模型应考虑感知质量空间会随内容变化而动态改变,并高度依赖上下文影响因素,对心理物理模型进行适当修订以纳入更多内容维度,可提高质量预测的准确性。
这种基于语音传输质量的研究思路也适用于其他感官模态和多媒体领域。例如,在呈现静态图像、无声和有声短视频等视觉和视听刺激的奇偶数任务中,已识别出感知质量变化的神经关联;图像和有声视频剪辑的内容类型对主观和神经生理测量也有显著影响。
#### 2. 说话者识别中的内部过程
研究通过“轮流”聆听情境,探究了空间语音再现和传输质量对内部信息处理的影响。在该情境中,两名说话者的句子交替呈现,参与者需通过快速按键来识别说话者。由于涉及两名说话者和基于扬声器的空间化,此任务涉及多种感知、认知和响应相关过程,特定内部过程的激活关键取决于可用的空间听觉线索和语音质量损伤。
通过计时的“加法因子逻辑”来解释行为响应时间模式,同时通过比较不同再现模式的任务,基于“减法逻辑”进行空间化效果的理论推断。实验在扬声器位置(左、中、右)、再现模式(非空间、空间变化、空间固定)和质量(高、低噪声、低染色)的全因素水平组合下进行,得到的实证结果模式可通过逐步添加反映不同听觉处理阶段内部过程的主要效应来理论推导。
主要效应及相互作用如下:
- **质量的主要效应**:在非空间模式下,与高质量语音相比,低质量语音(低噪声、低染色)的正确响应时间(cRT)增加,且增加幅度取决于感知退化强度(低噪声 > 低染色),推测语音质量损伤会影响感知特征变化的辨别,因为语音特征易受频谱失真和背景噪声掩蔽的影响。
- **再现模式的主要效应**:在高质量语音条件下,与非空间模式相比,空间变化模式下的 cRT 全局增加。因为说话者在不同空间位置频繁变化,参与者需相应切换空间听觉注意力,这涉及多个子过程,会导致行为响应延迟(响应时间切换成本)。
- **再现模式与质量的相互作用**:在空间变化模式与非空间模式相比时,cRT 的全局增加在高质量语音时最为明显,在低染色语音时较弱,在低噪声语音时为零。随着质量退化强度的增加,参与者会增加补偿努力以适应语音特征可辨别性的降低,从而维持最佳说话者识别性能,这可能对应于受控的注意力资源分配,以补偿响应时间切换成本。
- **扬声器位置的主要效应**:在空间变化模式下,与中央位置相比,侧向(左、右)位置的 cRT 降低。因为侧向刺激位置与行为响应在空间上始终兼容,有助于动作选择(西蒙效应)。
在空间固定再现模式下,说话者始终位于特定侧向位置,响应时间模式有所不同。在高质量语音条件下,该模式下的 cRT 大幅降低,因为
0
0
复制全文
相关推荐









