简介

  GPT-SoVITS是一款强大的少样本语音转换与语音合成工具,无需联网,本地即可运行。在运行速度和精度方面综合表现不俗。如果你在寻找一款不需要联网且精度还不错的语音合成工具,不妨试试这个。
主要特色:
1.零样本文本到语音(TTS): 输入5秒的声音样本,即刻体验文本到语音转换。

2.少样本TTS: 仅需1分钟的训练数据即可微调模型,提升声音相似度和真实感。

3.跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。

4.WebUI工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和GPT/SoVITS模型。
注意事项:
1.目前该模型对中文输入较为友好,自动识别中文语音并转化成文本内容便于修改,如果是英语或日语则要手动校对,使用ASR会报错。样本内容较多手动标注还是比较费时费力的。音源为英文/日文样本训练前请务必三思,结合语言能力和时间,量力而行;或者使用在线语音识别工具,先把音源对应的文本提取出来,方便后续纠正。

2.素材尽量不要有大的背景噪音,会影响模型的精度,具体来说噪音会让模型声音变形或带有电流声、尖锐声等。也可以在处理前开启消除噪音功能试一试。

3.能否成功克隆素材的声音受很多因素影响,最重要的就是批次大小和训练轮数。并不是批次和轮数数越多越好,要取一个适合的值,一般来说,批次大小设置为8,轮数设置为15就差不多了,如果模型效果不好就继续微调一下。其次是背景噪音和音源对应文本的精度,如果对应的文本错误太多显然是不可能取得理想的效果的。进一步了解批次和轮数可以看这篇说明Difference Between a Batch and an Epoch in a Neural Network

用法

1.项目地址:https://github.com/RVC-Boss/GPT-SoVITS
支持MacOS,Windows10或以上,Ubuntu,Debian。我主要使用Windows,就以它为例了。
2.下载文件
主页为UI界面的下载,切换到中文说明,可以直接下载整合包,解压后点击go-webui.bat就能用了。
预打包文件

3.运行bat后弹出网页如下:

紫线选项为去噪,需要就选上,去噪的模型也是可以更换的,项目地址下有对应链接。
红线选项填样本所在的文件目录+文件名称.格式 ,例如:E:\FFOutput\sample.mp3
蓝线选项填样本切片后的输出目录,例如:E:\FFOutput\sample
绿线选项与蓝线选项保持一致,目的是输出样本中的中文语音文本
黑线选项填输出匹配文本的目录,路径为项目文件夹的output➡asr_opt目录下
例如:G:\Project\GPT-SoVITS\GPT-SoVITS-beta0128\output\asr_opt\sample.list
依次做完后点击Open labelling WebUI(橙线),自动弹出校对页面
文本校对页面
看着选项很多,常用的就几个:submit text / merge text /save file /next text /previous text等,对照语音校对完文字后要先点提交(submit text)再保存,不然会保存失败,文本列表中文字还是没变。没问题了就可以先关闭这一页了。

4.接着点GPT-SOVIT-TTS(棕线选项),数据集处理。这一步处理起来还是很快的。可以依次点击图中三个选项,也可以最底下直接一键三连

5.训练模型 Fine-tuned training(粉线),这一步需要的时间完全取决于设备性能,一张好的显卡这时候就显得尤为重要了.图中的数据按默认就行,批次大小8,15轮就差不多了,两个模型的训练不分先后。如果只有一张显卡,后面的GPU number就不需要改,有的话可以加。别问我怎么添加,我没有,不知道~
模型训练页面

6.模型选择
在Inference 界面可以选择GPT模型和SoVITS模型,选择最大的模型,效果会好一些。然后点击输出界面(Open TTS inference webui)会进入输出界面,也可以不训练直接选择预训练模型,效果一般都不太好。
选择模型

7.输出语音
需要先选择一段语音切片,填入语音对应的文本,内容要一致否则会报错。然后可以选择输出的语音类型,默认为中文。接着就可以输入你想要输出的文本内容了,”怎么切”取决于文本长度,太长的话语音输出可能会变形,漏字或声音失真等,短文不用切,长文一段一段来。单一语言输出效果最好,混合语言还在更新中,中英混合选中文,日英混合选日文,中日混合暂不支持,非目标语言文本自动遗弃。
输出语音

来源

感谢Bilibili Up:花儿不哭及其他贡献者。作者视频:https://www.bilibili.com/video/BV12g4y1m7Uw 教学视频Bilibili 太多了,选播放量高的就行,比如这个https://www.bilibili.com/video/BV1P541117yn

Youtube:GPT-SoVITS语音克隆AI|AI探索与发现
感慨一两句,AI技术是个双刃剑,一边提高工作效率,干掉了一些人的饭碗,另一方面确实让普通人也能享受到科技发展的好处,现在恐怕谁也无法预料到AI未来的走向,It’s up to you,up to everyone’s choice.