语音质量与空间化对说话者识别的影响及注意力资源分配
立即解锁
发布时间: 2025-09-03 00:08:54 阅读量: 2 订阅数: 3 AIGC 

# 语音质量与空间化对说话者识别的影响及注意力资源分配
## 一、说话者识别测试结果
### 1.1 测试假设验证
在说话者识别测试中,有两个重要假设需要验证。假设(i)认为空间固定模式相对于空间变化和非空间模式能显著减轻说话者识别(TI)的努力程度;假设(ii)认为不同的再现模式会影响正确响应时间,即非空间和空间变化模式的响应时间会长于空间固定模式。
测试结果显示,空间固定模式并没有显著减轻TI的努力程度,因此假设(i)被拒绝。这与之前相关研究中提到的能降低区分不同说话者轮次难度的结论相反,可能是因为TI努力程度已达到主观下限,难以进一步大幅降低。而对于假设(ii),分析表明空间固定模式下的响应时间明显快于空间变化和非空间模式,该假设得到了证实。
### 1.2 行为结果分析
#### 1.2.1 不同空间再现模式下的响应时间
对不同空间再现模式下在左右位置的平均正确响应时间进行分析,发现空间固定模式下的响应时间比空间变化和非空间模式快很多。这表明在空间固定模式下,参与者主要采用声音定位策略,可能是通过快速的偶然学习或意识到两个说话者在各自的左右位置固定不动。然而,与空间定位模式相比,空间固定模式下识别说话者的行为响应仍然明显较慢,说明参与者并非完全依赖声音定位,有时也会采用语音识别策略。这可能是因为参与者不确定说话者在整个测试过程中是否会一直固定在特定位置,并且任务明确要求进行说话者识别,所以他们会故意延迟基于说话者位置的即时行为响应,以再次确认说话者的声音身份。
#### 1.2.2 不同语音再现模式和质量水平下的响应时间
在不同语音再现模式(非空间、空间变化、空间固定)和质量水平(高质量、染色受损、噪声受损)下,行为响应时间也有所不同。从视觉检查图中可以看出,空间固定模式下的行为响应明显快于非空间和空间变化模式,这与参与者开始采用声音定位作为主要响应策略的解释相符。
在非空间模式下,高质量语音的行为响应最快,染色受损语音次之,噪声受损语音最慢。在空间变化模式下,高质量和染色受损刺激的响应速度也快于噪声受损刺激。这可能是因为语音质量受损会掩盖和扭曲语音特征,使语音线索的区分和个体说话者的识别更加困难。
在空间固定模式下,不同质量水平之间的正确响应时间差异很小,仅在染色受损和噪声受损语音之间有显著差异。有趣的是,与原始结果模式不同,染色受损语音的行为响应比噪声受损语音慢。这可能是因为创建噪声受损刺激时,背景噪声会持续存在于整个语音文件中,参与者可以利用语音信号开始前的短暂静音期检测到噪声,将其作为感官线索来优化行为响应速度。而带通滤波只影响语音信号,染色受损刺激的失真开始时间总是与语音信号开始时间一致,没有等效的感官线索。
### 1.3 测试结论
综合测试结果,得出以下结论:
1. 语音质量受损会降低判断的语音质量和可懂度,增加两个说话者声音的感知相似度,从而导致更高的说话者识别努力。
2. 除了语音可懂度外,未发现空间语音再现的显著主观益处。
3. 引入的质量受损会整体延迟行为上的说话者识别,受损程度越严重,延迟越明显。
4. 在空间变化再现模式下,参与者平均仍主要依赖语音识别作为说话者识别的响应策略。
5. 在空间固定再现模式下,参与者采用声源定位作为主要响应策略,并且语音可懂度有小幅提升。
6. 在空间变化和非空间语音再现中,在不同扬声器位置之间切换空间注意力会减慢行为响应速度,但在感知到更强的退化强度时,这种减慢会逐渐得到补偿,可能是因为参与者会控制注意力资源分配以应对增加的感知 - 认知负荷。
这些结果对于设计空间语音显示具有实际意义,例如在航空交通管制等安全和时间关键的应用领域,应考虑将说话者唯一映射到不同的扬声器位置并保持固定,这样参与者会采用以声音定位为主、语音识别为辅的混合响应策略,有助于快速轻松地识别说话者。
以下是测试结果的简要表格总结:
| 再现模式 | 对TI努力的影响 | 响应时间特点 | 主要响应策略 | 语音可懂度 |
| --- | --- | --- | --- | --- |
| 空间固定 | 未显著减轻 | 快于空间变化和非空间模式 | 声音定位为主,语音识别为辅 | 小幅提升 |
| 空间变化 | - | 慢于空间固定模式 | 语音识别为主 | - |
| 非
0
0
复制全文
相关推荐










