一.github作者指南
1.下载数据集并解压:确保您可以访问 train 文件夹中的所有音频文件(如.wav)
2.进行音频和梅尔频谱图预处理: python pre.py <datasets_root> -d {dataset} -n {number}
可传入参数:
-d {dataset} 指定数据集,支持 aidatatang_200zh, magicdata, aishell3, data_aishell, 不传默认为aidatatang_200zh
-n {number} 指定并行数,CPU 11770k + 32GB实测10没有问题
3.假如你下载的 aidatatang_200zh文件放在D盘,train文件路径为 D:\data\aidatatang_200zh\corpus\train , 你的datasets_root就是 D:\data
4.训练合成器: python synthesizer_train.py mandarin <datasets_root>/SV2TTS/synthesizer
二.实际操作命令行
1.预处理:python pre.py F:\机器学习\实践\AI语音克隆\data
2.指定显卡进行模型训练:CUDA_VISIBLE_DEVICES=0,1,2,3 python synthesizer_train.py mandarin F:\机器学习\实践\AI语音克隆\data/SV2TTS/synthesizer
3.数据集混合训练
按这个顺序运行pre:
1.第一次直接运行pre.py,默认处理aidatatang
2. 第二次指定数据集为aishell3, 带上-d aishell3 -s
3. 第三次指定数据集为data_aishell,带上-d data_aishell -s
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· .NET10 - 预览版1新功能体验(一)