基于Pytorch框架实现的端到端语音合成系统_VITS模型_支持普通话和粤语多说话人_包含BZNSYP和粤语数据集_提供预训练模型下载_支持Windows和Linux系统

共98个文件

py：32个

ocd2：28个

json：28个

版权申诉

49 浏览量 2025-08-20 10:50:22 上传评论收藏 4.09MB ZIP 举报

在当今的信息时代，语音合成技术已广泛应用于各种领域，如虚拟助手、在线教育、游戏娱乐等，为人们的生活带来了极大的便利。基于Pytorch框架实现的端到端语音合成系统，尤其是采用VITS模型的技术，已经成为语音合成领域研究的热点。端到端语音合成系统指的是从输入文本到输出语音的整个过程都在一个统一的模型中完成，不需要中间步骤如声码器的介入。这种系统简化了传统语音合成的流程，提高了合成语音的自然度和效率。而VITS模型作为一种先进的端到端语音合成模型，它能够在保持高合成质量的同时，处理不同的说话人和语言。语言的多样性是VITS模型的一大特点。它不仅支持普通话，还支持粤语，这意味着该系统能够覆盖更广泛的用户群体。对于多说话人的支持则让系统能够根据不同的声音特征生成相应的语音，进一步提高了语音合成的灵活性和个性化水平。此外，BZNSYP和粤语数据集的包含，为VITS模型提供了充足的学习资源。BZNSYP即北京语言大学普通话研究语料库，是普通话发音的标准化数据集，对于普通话合成质量的提升起到了关键作用。而粤语数据集则确保了系统能够生成地道的粤语发音，这在多语言环境中有其独特优势。预训练模型的提供，大大降低了使用该语音合成系统的门槛。用户无需从零开始训练模型，即可利用已有的训练成果进行项目开发或个人使用，极大地提高了工作效率和成果质量。对于系统支持的操作系统，VITS模型不仅可以在Windows系统上运行，也支持Linux系统，这为不同环境下的开发和部署提供了便利。无论是个人开发者还是企业用户，都可以较为方便地在自己的平台上应用这一技术。基于Pytorch框架实现的端到端语音合成系统_VITS模型，因其支持多语言、多说话人，提供预训练模型下载，以及兼容多种操作系统，已成为一个功能强大、应用广泛的语音合成解决方案。它不仅仅是一项技术上的突破，也为语音合成领域的发展注入了新的活力，为未来的相关应用开辟了更为广阔的前景。

资源推荐

资源详情

资源评论

收起资源包目录

基于Pytorch框架实现的端到端语音合成系统_VITS模型_支持普通话和粤语多说话人_包含BZNSYP和粤语数据集_提供预训练模型下载_支持Windows和Linux系统_可用于.zip （98个子文件）

VITS-Pytorch-master

create_list.py 2KB

setup.py 2KB

LICENSE 11KB

configs

config.yml 2KB

infer.py 2KB

docs

images

log.jpg 96KB

requirements.txt 371B

.gitignore 104B

preprocess_data.py 710B

train.py 895B

README.md 13KB

mvits

__init__.py 1KB

data_utils

__init__.py 0B

collate_fn.py 2KB

reader.py 3KB

sampler.py 4KB

mel_processing.py 4KB

predict.py 3KB

trainer.py 23KB

utils

utils.py 5KB

__init__.py 0B

text

__init__.py 2KB

ngu_dialect.py 1KB

english.py 5KB

symbol.py 773B

LICENSE 1KB

japanese.py 5KB

chinese_dialect_lexicons

jyutjyu_2.json 311B

changzhou_3.ocd2 94KB

tongxiang_2.json 367B

jiashan_2.ocd2 70KB

jingjiang_2.json 367B

pinghu_2.json 358B

tiantai_2.json 361B

wuxi_2.ocd2 350KB

pinghu_2.ocd2 68KB

suzhou_2.json 306B

ningbo_2.ocd2 377KB

ruao_2.json 352B

youbu_2.json 355B

jingjiang_2.ocd2 84KB

tongxiang_2.ocd2 134KB

ruao_2.ocd2 57KB

youbu_2.ocd2 83KB

shaoxing_2.json 364B

cixi_2.json 352B

zhenru_2.ocd2 56KB

shaoxing_2.ocd2 110KB

xiaoshan_2.ocd2 75KB

changzhou.ocd2 94KB

xiashi_2.json 310B

wenzhou_2.ocd2 81KB

zaonhe.ocd2 3.91MB

wuxi_2.json 300B

sanmen_2.ocd2 78KB

jiading_2.ocd2 109KB

fuyang_2.ocd2 82KB

zaonhe_2.json 308B

jiashan_2.json 361B

yixing_2.json 310B

wenzhou_2.json 361B

sanmen_2.json 358B

suichang_2.ocd2 79KB

changzhou.json 367B

hangzhou_2.ocd2 417KB

xiashi_2.ocd2 69KB

changzhou_3.json 367B

tiantai_2.ocd2 118KB

jiading_2.json 361B

cixi_2.ocd2 96KB

yixing_2.ocd2 151KB

zaonhe_2.ocd2 3.91MB

xiaoshan_2.json 364B

hangzhou_2.json 312B

zaonhe.json 308B

README.md 107B

linping_2.json 361B

linping_2.ocd2 64KB

jyutjyu_2.ocd2 2.32MB

suichang_2.json 364B

suzhou_2.ocd2 494KB

zhenru_2.json 358B

ningbo_2.json 306B

fuyang_2.json 358B

mandarin.py 8KB

shanghainese.py 2KB

cleaners.py 2KB

cantonese.py 2KB

korean.py 6KB

models

__init__.py 0B

attentions.py 13KB

losses.py 1KB

models.py 21KB

transforms.py 8KB

commons.py 5KB

modules.py 14KB

说明文件.txt 763B

附赠资源.docx 42KB

简体中文 | [English]() # 基于Pytorch实现的语音合成系统 ![python version](https://img.shields.io/badge/python-3.8+-orange.svg) ![GitHub forks](https://img.shields.io/github/forks/yeyupiaoling/VITS-Pytorch) ![GitHub Repo stars](https://img.shields.io/github/stars/yeyupiaoling/VITS-Pytorch) ![GitHub](https://img.shields.io/github/license/yeyupiaoling/VITS-Pytorch) ![支持系统](https://img.shields.io/badge/支持系统-Win/Linux/MAC-9cf) # 前言本项目是基于Pytorch的语音合成项目，使用的是VITS，VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）是一种语音合成方法，这种时端到端的模型使用起来非常简单，不需要文本对齐等太复杂的流程，直接一键训练和生成，大大降低了学习门槛。 **欢迎大家扫码入知识星球或者QQ群讨论，知识星球里面提供项目的模型文件和博主其他相关项目的模型文件，也包括其他一些资源。** <div align="center"> <img src="https://yeyupiaoling.cn/zsxq.png" alt="知识星球" width="400"> <img src="https://yeyupiaoling.cn/qq.png" alt="QQ群" width="400"> </div> # 使用准备 - Anaconda 3 - Python 3.8 - Pytorch 1.13.1 - Windows 10 or Ubuntu 18.04 # 模型下载 | 数据集 | 语言（方言） | 说话人数量 | 说话人名称 | 下载地址 | |:--------------------------------------------------------:|:------:|:-----:|:-------------------:|:----------------------------------------------------------------:| | [BZNSYP](https://aistudio.baidu.com/datasetdetail/36741) | 普通话 | 1 | 标准女声 | [点击下载](https://pan.baidu.com/s/1l-Sz6017Ie6hsk5dcKyMCg?pwd=x1pw) | | 粤语数据集 | 粤语 | 10 | 男声1<br/>女生1<br/>··· | [点击下载](https://pan.baidu.com/s/1l-Sz6017Ie6hsk5dcKyMCg?pwd=x1pw) | ## 安装环境 - 首先安装的是Pytorch的GPU版本，如果已经安装过了，请跳过。 ```shell conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia ``` - 安装mvits库。使用pip安装，命令如下： ```shell python -m pip install mvits -U -i https://pypi.tuna.tsinghua.edu.cn/simple ``` **建议源码安装**，源码安装能保证使用最新代码。 ```shell git clone https://github.com/yeyupiaoling/VITS-Pytorch.git cd VITS-Pytorch/ pip install . ``` ## 准备数据项目支持直接生成[BZNSYP](https://aistudio.baidu.com/datasetdetail/36741)和[AiShell3](https://aistudio.baidu.com/datasetdetail/207703)数据列表，以BZNSYP为例，将BZNSYP下载到`dataset`目录下，并解压。然后执行`create_list.py`程序就会生成以下格式的数据表，格式为`<音频路径>|<说话人名称>|<标注数据>`，注意标注数据需要标注语言，例如普通话，就要用`[ZH]`将文本包裹起来，其他语言分别支持日本語:`[JA]`, English:[EN], 한국어:[KO]。自定义数据集按照这个格式生成就行。项目提供两种文本处理方式，不同的文本处理方式，支持不同的语言，分别是`cjke_cleaners2`和`chinese_dialect_cleaners`，这个配置在`dataset_conf.text_cleaner`上修改。`cjke_cleaners2`支持语言`{"普通话": "[ZH]", "日本語": "[JA]", "English": "[EN]", "한국어": "[KO]"}`，`chinese_dialect_cleaners`支持语言`{"普通话": "[ZH]", "日本語": "[JA]", "English": "[EN]", "粤语": "[GD]", "上海话": "[SH]", "苏州话": "[SZ]", "无锡话": "[WX]", "常州话": "[CZ]", "杭州话": "[HZ]", ·····}`，更多的语言可以查看源码[LANGUAGE_MARKS](./mvits/__init__.py)。 ``` dataset/BZNSYP/Wave/000001.wav|标准女声|[ZH]卡尔普陪外孙玩滑梯。[ZH] dataset/BZNSYP/Wave/000002.wav|标准女声|[ZH]假语村言别再拥抱我。[ZH] dataset/BZNSYP/Wave/000003.wav|标准女声|[ZH]宝马配挂跛骡鞍，貂蝉怨枕董翁榻。[ZH] ``` 有了数据列表之后，需要生成音素数据列表，只要执行`preprocess_data.py --train_data_list=dataset/bznsyp.txt`，即可生成音素数据列表。到这一步数据就全部准备好了。 ``` dataset/BZNSYP/Wave/000001.wav|0|kʰa↓↑əɹ`↓↑pʰu↓↑ pʰeɪ↑ waɪ↓swən→ wan↑ xwa↑tʰi→. dataset/BZNSYP/Wave/000002.wav|0|tʃ⁼ja↓↑ɥ↓↑ tsʰwən→jɛn↑p⁼iɛ↑ ts⁼aɪ↓ jʊŋ→p⁼ɑʊ↓ wo↓↑. dataset/BZNSYP/Wave/000003.wav|0|p⁼ɑʊ↓↑ma↓↑ pʰeɪ↓k⁼wa↓ p⁼wo↓↑ lwo↑an→, t⁼iɑʊ→ts`ʰan↑ ɥæn↓ ts`⁼ən↓↑ t⁼ʊŋ↓↑ʊŋ→ tʰa↓. ``` ## 训练现在就可以开始训练模型了，配置文件里面的参数一般不需要修改，说话人数量和说话人名称都会在执行`preprocess_data.py`修改过。可能需要修改的只有`train.batch_size`，如果是显存不够的话，可以减小这个参数。 ```shell # 单卡训练 CUDA_VISIBLE_DEVICES=0 python train.py # 多卡训练 CUDA_VISIBLE_DEVICES=0,1 torchrun --standalone --nnodes=1 --nproc_per_node=2 train.py ``` 训练输出日志： ``` [2023-08-28 21:04:42.274452 INFO ] utils:print_arguments:123 - ----------- 额外配置参数 ----------- [2023-08-28 21:04:42.274540 INFO ] utils:print_arguments:125 - config: configs/config.yml [2023-08-28 21:04:42.274580 INFO ] utils:print_arguments:125 - epochs: 10000 [2023-08-28 21:04:42.274658 INFO ] utils:print_arguments:125 - model_dir: models [2023-08-28 21:04:42.274702 INFO ] utils:print_arguments:125 - pretrained_model: None [2023-08-28 21:04:42.274746 INFO ] utils:print_arguments:125 - resume_model: None [2023-08-28 21:04:42.274788 INFO ] utils:print_arguments:126 - ------------------------------------------------ [2023-08-28 21:04:42.727728 INFO ] utils:print_arguments:128 - ----------- 配置文件参数 ----------- [2023-08-28 21:04:42.727836 INFO ] utils:print_arguments:131 - dataset_conf: [2023-08-28 21:04:42.727909 INFO ] utils:print_arguments:138 - add_blank: True [2023-08-28 21:04:42.727975 INFO ] utils:print_arguments:138 - batch_size: 16 [2023-08-28 21:04:42.728037 INFO ] utils:print_arguments:138 - cleaned_text: True [2023-08-28 21:04:42.728097 INFO ] utils:print_arguments:138 - eval_sum: 2 [2023-08-28 21:04:42.728157 INFO ] utils:print_arguments:138 - filter_length: 1024 [2023-08-28 21:04:42.728204 INFO ] utils:print_arguments:138 - hop_length: 256 [2023-08-28 21:04:42.728235 INFO ] utils:print_arguments:138 - max_wav_value: 32768.0 [2023-08-28 21:04:42.728266 INFO ] utils:print_arguments:138 - mel_fmax: None [2023-08-28 21:04:42.728298 INFO ] utils:print_arguments:138 - mel_fmin: 0.0 [2023-08-28 21:04:42.728328 INFO ] utils:print_arguments:138 - n_mel_channels: 80 [2023-08-28 21:04:42.728359 INFO ] utils:print_arguments:138 - num_workers: 4 [2023-08-28 21:04:42.728388 INFO ] utils:print_arguments:138 - sampling_rate: 22050 [2023-08-28 21:04:42.728418 INFO ] utils:print_arguments:138 - speakers_file: dataset/speakers.json [2023-08-28 21:04:42.728448 INFO ] utils:print_arguments:138 - text_cleaner: cjke_cleaners2 [2023-08-28 21:04:42.728483 INFO ] utils:print_arguments:138 - training_file: dataset/train.txt [2023-08-28 21:04:42.728539 INFO ] utils:print_arguments:138 - validation_file: dataset/val.txt [2023-08-28 21:04:42.728585 INFO ] utils:print_arguments:138 - win_length: 1024 [2023-08-28 21:04:42.728615 INFO ] utils:print_arguments:131 - model: [2023-08-28 21:04:42.728648 INFO ] utils:print_arguments:138 - filter_channels: 768 [2023-08-28 21:04:42.728685 INFO ] utils:print_arguments:138 - gin_channels: 256 [2023-08-28 21:04:42.728717 INFO ] utils:print_arguments:138 - hidden_channels: 192 [2023-08-28 21:04:42.728

评论收藏

内容反馈

版权申诉