Calib-StyleSpeech与图基Transformer在语音克隆和机器翻译中的应用
立即解锁
发布时间: 2025-08-29 11:39:09 阅读量: 7 订阅数: 27 AIGC 

### Calib-StyleSpeech与图基Transformer在语音克隆和机器翻译中的应用
在语音克隆和神经机器翻译领域,不断有新的技术和方法涌现,以提升系统的性能和效果。下面将分别介绍Calib-StyleSpeech在零样本语音克隆中的应用,以及图基Transformer为神经机器翻译提供句法感知的相关内容。
#### Calib-StyleSpeech:零样本语音克隆新方法
在语音合成领域,零样本语音克隆是一个具有挑战性的任务。Calib-StyleSpeech提出了一种新的方法,旨在利用文本的抽象内容通过互信息(MI)函数校准风格向量,以实现高效的风格提取,应用于多说话人任务和零样本语音克隆任务。
##### 校准风格与模型架构
在尝试分离风格和内容表示空间时,尽管做了很多努力,但Ec和Es除了梯度之外,并不确切知道真实值或任何关于学习进度的信息。为了解决这个问题,提出了用h近似c的方法,即迫使Ep(t, s)和Ec(x)生成相同的输出,也就是语言特征的中间抽象层。这样,在最小化s和c的嵌入空间之间的依赖关系时,可以确保模型学习将风格信息从内容信息中分离出来。
模型基于FastSpeech2构建,这是一个非自回归的文本到语音(TTS)模型,包括编码器、方差适配器和解码器三个部分。在声学模型中,任意长度的文本通过音素嵌入提取语言嵌入序列,编码器的输出与说话人嵌入相结合,再加上预测的能量、音高,并通过方差适配器调整长度。在工作中,还采用了SALN作为编码器和解码器的构建块,以获得高适应性的模型,并解决协变量偏移的挑战。模型的训练目标是最小化总损失,总损失由声学损失、互信息损失和内容损失组成。
| 损失类型 | 说明 |
| ---- | ---- |
| Lacoustic | 声学损失,包括重建梅尔频谱图与参考梅尔频谱图的L1损失,以及预测的持续时间、能量和音高与真实值的均方误差(MSE) |
| Lmi | 互信息损失,通过特定公式计算 |
| Lcontent | 内容损失,用于最小化c和h之间的差异 |
模型总损失公式为:
\[
L = L_{acoustic} + \lambda_1L_{mi} + \lambda_2L_{content}
\]
其中,\(\lambda_1\)和\(\lambda_2\)用于控制互信息损失和内容损失的影响。
##### 实验与评估
- **不平衡数据集**:将三个数据集组合在一起,包括两个女性单说话人数据集和一个多说话人数据集。组合后的数据集存在不平衡问题,约30%的说话人话语少于100条,且大部分是南方口音。这种不平衡会导致训练困难,并且丰富资源语音的偏差会降低低资源语音的TTS任务性能。然而,校准方法在这个数据集中显示出了有效性,通过校准风格,模型能够很好地聚类说话人的风格向量,减少了模型在丰富资源语音上的过拟合,同时保持了合成语音的自然度和智能度。
- **预处理和训练**:对所有数据集的音频进行重采样,将其从48000Hz降至22050Hz并转换为单声道。对于文本数据,构建了文本归一化工具以确保内容与音频匹配。使用FFT大小为1024、跳数为256、窗口大小为1024样本的参数提取频谱图。还使用了越南语的字形到音素工具包将越南语文本转换为音素序列,并构建了工具来预处理输入文本。使用MFA工具包训练新模型以生成真实持续时间,并使用DIO和Stone-mask算法估计真实音高。模型参数设置如下:批量大小为48,\(\lambda_1 = \lambda_2 = 1\),使用Adam优化器,\(\beta_1 = 0.9\),\(\beta_2 = 0.98\),\(\epsilon = 10^{-9}\)。模型在2个GTX 1080 Ti GPU上训练了3天。
- **评估指标**:通过平均意见得分(MOS)评估合成语音的自然度,通过相似度平均意见得分(SMOS)评估合成语音与参考语音的相似度。创建了两个独立的调查,分别用于MOS和SMOS测试。MOS调查有58名评委,SMOS调查有17名评委,两者都在1 - 5的尺度上进行评估,并报告95%的置信区间。
| 模型 | 自然度(MOS - 已见语音)
0
0
复制全文
相关推荐









