DDSP模型使用流程
1、使用UVR进行音频分离,得到人物干声素材.wav
2、使用Audioslicer对干声素材进行切片,切片好的文件使用文件夹存放,并使用数字为文件夹命名,然后放入训练文件夹DDSP-SVC\data\train\audio文件中,验证音频文件不能够和训练文件重合,否则训练出来效果不好,将验证音频文件以同样方式存放入验证文件夹DDSP-SVC\data\val\audio中,并且按照(训练文件:验证文件=100:1)
3、点击数据预处理(梳齿波).bat【推荐】或者数据预处理(正弦波),此处选择与后面应当保持一致
4、修改配置文件
- 进入configs文件夹;第三步选择梳齿波则修改:combsub.yaml,正弦波则修改:sins.yaml
- num_workers:改为0
- batch_size:6g显存则填24,自己根据显存按照比例换算
- lr:lr和batche_size的关系为0.0001:6
- cache_device:如果显卡是N卡且支持cuda则填cuda,如果显卡很差劲,则填cpu
5、点击对应的训练.bat,训练到大约20000步就差不多了,可以点击启动tensorboard试听训练效果,觉得满意就可以ctl+c停止训练
6、模型每隔2000步保存一次,模型保存在exp文件夹中,如果之前的模型不需要可直接删除,保留最新的即可
7、将需要应用的音频放入input文件夹
8、执行对应转换脚本
- 请输入模型文件名:model_best.pt
- 输入变调值:0
- 输入说话人id:对应文件夹数字
- 是否使用增强器:true
9、转换后的音频在output文件夹