文本转语音 (TTS) 模型在过去几年中在质量方面取得了长足进步。不幸的是,目前无法在不安装大量依赖项的情况下使用这些库。
txtai TextToSpeech 管道具有以下目标:
CPU 和 GPU 上的快速性能
能够批量处理大文本值并通过模型流式传输
最小的安装足迹
所有依赖项必须兼容 Apache 2.0
本文将介绍一组文本到语音生成示例。
安装依赖
安装txtai和所有依赖项。
Install txtai
pip install txtai[pipeline] onnxruntime-gpu librosa
创建一个 TextToSpeech 实例
TextToSpeech 实例是从文本生成语音的主要入口点。该管道由ESPnet项目的模型支持。ESPnet 在Hugging Face Hub上提供了许多高质量的 TTS 模型。
该管道可以使用 Hugging Face Hub 上目前有两个模型。
ljspeech-jets-onnx
ljspeech-vits-onnx
默认模型是ljspeech-jets-onnx. 上面的每个模型都是使用espnet_onnx导出到 ONNX 的 ESPnet 模型。有关该过程的更多信息,请参见上面的链接。
from txtai.pipeline import TextToSpeech
Create text-to-speech model
tts = TextToSpeech()
生成语音
第一个示例展示了如何从文本生成语音。试一试吧!
import librosa.display
import matplotlib.pyplot as plt
text = “Text To Speech models have made great strides in quality over the last