基于情感特定语音库存的富有表现力的语音合成研究
立即解锁
发布时间: 2025-08-22 01:17:12 阅读量: 1 订阅数: 3 


人类与机器交互的多模态分析
### 基于情感特定语音库存的富有表现力的语音合成研究
#### 1. 研究背景与动机
在语音合成领域,传统的单元选择算法可能会因拼接不同语音质量的片段而引入可听的失真。为解决这一问题,研究探索了使用情感特定的双音素和三音素库存,在非单元选择的拼接式语音合成框架下进行富有表现力的语音合成。其基本思路是,录制短的无意义词(logatoms)来构建库存,相较于由录制句子组成的单元选择数据库,能得到语音质量更均匀的数据库。
#### 2. 相关工作
此前有多项关于情感语音合成的实验:
- **Montero 等人的实验**:专业演员模拟四种情感和中性风格朗读西班牙语语义中性文本,在 6 选 1 听力测试中,使用从自然句子复制合成的韵律,各情感识别率高于随机水平(中性 76%、幸福 62%、惊讶 91%、悲伤 81%、冷愤怒 95%);自动生成韵律的结果类似(惊讶为 53%)。
- **Bulut 等人的实验**:半专业女演员朗读引发幸福、悲伤、愤怒和中性情感的短文,在强制 4 选 1 听力测试中,各情感识别率高于随机水平(愤怒 86%、悲伤 89%、幸福 44%、中性 82%)。
- **Schröder 和 Grice 的实验**:录制德国男性说话者在三种发声努力水平(软、正常、大声)下的完整双音素库存,嵌入无意义词中,用非单元选择的拼接引擎合成测试句子,听力测试表明合成语音中的发声努力能被正确感知,说明无意义词的语音质量在拼接语音中得以保留。
本研究与以往实验的主要区别在于:
- 使用非单元选择的 TTS 引擎,录制无意义词,且无意义词直接传达情感。
- 库存包含双音素和 CVC 三音素,减少了拼接不连续性。
- 对无意义词进行了听力测试以验证识别率,此前工作未进行此类正式验证。
- 女演员可自由改变音高,可能导致音高修改时出现额外伪影。
- 研究了更多情感,增加了听力测试的选择,可能降低预期识别率。
#### 3. 语音数据录制
- **语音材料选择**:使用匈牙利语语义中性句子 “A menüben minden szükséges információ elhangzik”(所有必要信息在菜单中公布),确定其双音素和 CVC 三音素序列,共 14 个 CVC 三音素和 12 个双音素(3 个 VV 双音素和 9 个 CC 双音素),并将它们嵌入无意义词中。
- **录制过程**:由 30 岁的专业匈牙利女演员录制该句子和 26 个无意义词的七种版本,分别表达六种基本情感(幸福、愤怒、惊讶、厌恶、悲伤、恐惧)和中性语调。不提供脚本,让女演员回忆个人情感经历来表达情感。每个情感录制多个版本,录制后进行非正式听力测试,选择最具情感说服力的样本,约 20% 的无意义词因未传达适当情感而重新录制。
- **录制设备与参数**:在消声室使用 AKG C - 414 B - ULS 电容麦克风,切换到心形模式并打开 75 Hz 低通滤波器,麦克风前安装防喷罩,声音以 44.1 kHz 采样,每个样本 16 位数字化。
#### 4. 合成刺激准备
- **配对方式**:将七个情感特定库存(由无意义词构建)和七个自然句子进行所有可能的配对,共 49 对。
- **合成与韵律移植步骤**:
1. 手动标记录制的无意义词和句子的声音边界。
2. 使用 Praat 中基于自相关的音高检测方法检测 F0 轮廓,目标 F0 曲线每个音高周期包含一个频率值。
3. 每 8 ms 计算一次强度,使用 32 ms 宽的窗口。
4. 使用 Praat 中基于 PSOLA 的韵律修改方法,将目标持续时间、F0 和强度轮廓复制到每个双音素和三音素。
5.
0
0
复制全文
相关推荐










