DDSP模型使用流程

1、使用UVR进行音频分离,得到人物干声素材.wav

2、使用Audioslicer对干声素材进行切片,切片好的文件使用文件夹存放,并使用数字为文件夹命名,然后放入训练文件夹DDSP-SVC\data\train\audio文件中,验证音频文件不能够和训练文件重合,否则训练出来效果不好,将验证音频文件以同样方式存放入验证文件夹DDSP-SVC\data\val\audio中,并且按照(训练文件:验证文件=100:1)

3、点击数据预处理(梳齿波).bat【推荐】或者数据预处理(正弦波),此处选择与后面应当保持一致

4、修改配置文件

  • 进入configs文件夹;第三步选择梳齿波则修改:combsub.yaml,正弦波则修改:sins.yaml
  • num_workers:改为0
  • batch_size:6g显存则填24,自己根据显存按照比例换算
  • lr:lr和batche_size的关系为0.0001:6
  • cache_device:如果显卡是N卡且支持cuda则填cuda,如果显卡很差劲,则填cpu

5、点击对应的训练.bat,训练到大约20000步就差不多了,可以点击启动tensorboard试听训练效果,觉得满意就可以ctl+c停止训练

6、模型每隔2000步保存一次,模型保存在exp文件夹中,如果之前的模型不需要可直接删除,保留最新的即可

7、将需要应用的音频放入input文件夹

8、执行对应转换脚本

  • 请输入模型文件名:model_best.pt
  • 输入变调值:0
  • 输入说话人id:对应文件夹数字
  • 是否使用增强器:true

9、转换后的音频在output文件夹

posted on 2023-08-23 20:57  读研随想录  阅读(456)  评论(0编辑  收藏  举报