论文PDF版
Audio samples from “Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis”
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
abstract
文中介绍了一种多说话人的语音合成系统(TTS),可以合成不在训练集合中的说话人声音,包括在train的时候没有见过的。该系统包含了三个部分。
- a speaker encoder net: 在数千个说话者的带噪数据集上训练的,不需要文本数据,可以从几秒的语音中生成一个embedding vector;
- 一个基于tactron2的seq2seq synthesis net : 在speaker embedding的基础上从文本生层梅尔谱; <