语音重建与分类器层次结构研究
1. 语音重建相关研究
1.1 基音与共振峰频率关系
研究发现,音高和共振峰频率成反比。以说话者 1 发出的耳语音素 /AA/ 为例,其基音周期最低时,第二共振峰频率最高。参考基音(reference pitch)可通过以下公式计算:
[a = \frac{p_{highest}-p_{lowest}}{f_{highest}-f_{lowest}}]
[p_{referans}=f_2 - a * (f_{lowest}-p_{lowest})]
其中,(f_{highest}) 是基音最高的说话者的第二共振峰频率,(p_{highest}) 是该说话者的基音;(f_{lowest}) 是基音最低的说话者的第二共振峰频率,(p_{lowest}) 是该说话者的基音。在提出的系统中,(f_{highest})、(p_{highest})、(f_{lowest}) 和 (p_{lowest}) 分别设为 897、89、1788 和 20。
1.2 共振峰结构修改
为获得窄带宽和改变的频率,系统采用基于线性预测倒谱系数(LSF)的共振峰结构修改方法。在元音期间,使用中值滤波器对线性预测谱对(LSP)轨迹进行平滑处理,同时不破坏音素快速变化的频谱内容。
1.3 实验结果
- 数据采集 :从 5 名男性和 2 名女性患有发声障碍的土耳其母语者那里录制了 50 个三音素平衡的句子。
- 声学特征保留效果 :保留清音音素的声学特征可提高合成语音的可懂度。以单