基于情感特定语音库存的富有表现力的语音合成研究

立即解锁

发布时间: 2025-08-22 01:17:12 阅读量: 1 订阅数: 3

人类与机器交互的多模态分析

### 基于情感特定语音库存的富有表现力的语音合成研究 #### 1. 研究背景与动机在语音合成领域，传统的单元选择算法可能会因拼接不同语音质量的片段而引入可听的失真。为解决这一问题，研究探索了使用情感特定的双音素和三音素库存，在非单元选择的拼接式语音合成框架下进行富有表现力的语音合成。其基本思路是，录制短的无意义词（logatoms）来构建库存，相较于由录制句子组成的单元选择数据库，能得到语音质量更均匀的数据库。 #### 2. 相关工作此前有多项关于情感语音合成的实验： - **Montero 等人的实验**：专业演员模拟四种情感和中性风格朗读西班牙语语义中性文本，在 6 选 1 听力测试中，使用从自然句子复制合成的韵律，各情感识别率高于随机水平（中性 76%、幸福 62%、惊讶 91%、悲伤 81%、冷愤怒 95%）；自动生成韵律的结果类似（惊讶为 53%）。 - **Bulut 等人的实验**：半专业女演员朗读引发幸福、悲伤、愤怒和中性情感的短文，在强制 4 选 1 听力测试中，各情感识别率高于随机水平（愤怒 86%、悲伤 89%、幸福 44%、中性 82%）。 - **Schröder 和 Grice 的实验**：录制德国男性说话者在三种发声努力水平（软、正常、大声）下的完整双音素库存，嵌入无意义词中，用非单元选择的拼接引擎合成测试句子，听力测试表明合成语音中的发声努力能被正确感知，说明无意义词的语音质量在拼接语音中得以保留。本研究与以往实验的主要区别在于： - 使用非单元选择的 TTS 引擎，录制无意义词，且无意义词直接传达情感。 - 库存包含双音素和 CVC 三音素，减少了拼接不连续性。 - 对无意义词进行了听力测试以验证识别率，此前工作未进行此类正式验证。 - 女演员可自由改变音高，可能导致音高修改时出现额外伪影。 - 研究了更多情感，增加了听力测试的选择，可能降低预期识别率。 #### 3. 语音数据录制 - **语音材料选择**：使用匈牙利语语义中性句子 “A menüben minden szükséges információ elhangzik”（所有必要信息在菜单中公布），确定其双音素和 CVC 三音素序列，共 14 个 CVC 三音素和 12 个双音素（3 个 VV 双音素和 9 个 CC 双音素），并将它们嵌入无意义词中。 - **录制过程**：由 30 岁的专业匈牙利女演员录制该句子和 26 个无意义词的七种版本，分别表达六种基本情感（幸福、愤怒、惊讶、厌恶、悲伤、恐惧）和中性语调。不提供脚本，让女演员回忆个人情感经历来表达情感。每个情感录制多个版本，录制后进行非正式听力测试，选择最具情感说服力的样本，约 20% 的无意义词因未传达适当情感而重新录制。 - **录制设备与参数**：在消声室使用 AKG C - 414 B - ULS 电容麦克风，切换到心形模式并打开 75 Hz 低通滤波器，麦克风前安装防喷罩，声音以 44.1 kHz 采样，每个样本 16 位数字化。 #### 4. 合成刺激准备 - **配对方式**：将七个情感特定库存（由无意义词构建）和七个自然句子进行所有可能的配对，共 49 对。 - **合成与韵律移植步骤**： 1. 手动标记录制的无意义词和句子的声音边界。 2. 使用 Praat 中基于自相关的音高检测方法检测 F0 轮廓，目标 F0 曲线每个音高周期包含一个频率值。 3. 每 8 ms 计算一次强度，使用 32 ms 宽的窗口。 4. 使用 Praat 中基于 PSOLA 的韵律修改方法，将目标持续时间、F0 和强度轮廓复制到每个双音素和三音素。 5.

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

基于情感特定语音库存的富有表现力的语音合成研究

相关推荐

专栏目录

基于情感特定语音库存的富有表现力的语音合成研究

相关推荐

ChatGPT技术的语音合成与情感语音生成算法研究.docx

ChatGPT技术与语音合成技术的融合应用研究.docx

电子语音合成 TTS

汉语节律特征在语音合成功能中的应用研究

人工智能语音合成系统：多样化语音转换与唯美女生发音

科大讯飞整合语音识别与合成技术

Govorilka 2.22：古老的语音合成技术重生

KDVoiceV2.30：人工智能语音合成系统介绍

Mellotron：创新的多风格语音合成模型

设计真实人物的富有表现力的虚拟形象

Python Built-in Functions (内置函数) delattr() setattr() getattr() hasattr()

轻量 API 增强服务：为各模型添实时联网搜索，让 AI 回答更准更及时

专栏目录

最新推荐

【紧急行动】：Excel文件损坏，.dll与.zip的终极解决方案

【Xilinx FPGA电源设计精要】：为Zynq7045-2FFG900优化电源网络策略

高斯过程可视化：直观理解模型预测与不确定性分析

FUNGuild与微生物群落功能研究：深入探索与应用

揭秘VB.NET：掌握数据类型、变量、流程控制与面向对象编程

内存管理最佳实践

五子棋网络通信协议：Vivado平台实现指南

热固性高分子模拟：掌握Material Studio中的创新方法与实践

【进阶知识掌握】：MATLAB图像处理中的相位一致性技术精通

【MATLAB词性标注统计分析】：数据探索与可视化秘籍