A卡配置sovits4.1步骤参考(Ubuntu20.04)
书接上回,4.0版本的配置:https://www.cnblogs.com/strawberryPudding/p/17280672.html
近日,sovits4.1更新了,更新了一个浅扩散模型,来研究一下。
一、环境配置
1,项目拉取
项目地址:https://github.com/svc-develop-team/so-vits-svc
2,依赖安装
删除配置文件中的torch选项,抽出来单独安装。显卡驱动和torch可以参考之前的4.0版本
使用cd命令打开项目路径,清华换源然后安装依赖:
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install -r requirements.txt
(注:如果换源后出现什么故障,需要换回原来的可以pip config set global.index-url https://pypi.Python.org/simple/)
这里我直接一遍过,并无报错,可能是之前装过4.0,大部分依赖已经有了,出现报错可以参考之前的文章。
3,模型文件
底模文件还是放在logs/44k下面。扩散模型的底模(model_0.pt)放在logs/44k/diffusion下面
和之前不同的是,编码器和nsf模型(浅层扩散要用)全都放入pretrain中
整合资源还是和之前放在一起:
链接:https://pan.baidu.com/s/1_Cx19msrqCoK62TeX_TdRA
提取码:p6dd
二、模型训练
和4.0一样,运行所有代码之前,RDNA2架构的显卡需要先在命令行输入export HSA_OVERRIDE_GFX_VERSION=10.3.0
如果是RDNA架构,则是export HSA_OVERRIDE_GFX_VERSION=10.1.0
1,数据集处理
python resample.py
python preprocess_flist_config.py --speech_encoder vec768l12
python preprocess_hubert_f0.py --f0_predictor dio(默认dio,可选crepe,dio,pm,harvest)
如果使用浅层扩散:python preprocess_hubert_f0.py --f0_predictor dio --use_diff
需要注意的是,此处的编码器默认是768l12,而4.0版本默认是256l9,所以如果需要使用老模型,需要在配置文件加入:
"model": {
.........
"ssl_dim": 256,
"n_speakers": 200,
"speech_encoder":"vec256l9"
}
2,模型训练
主模型训练:python train.py -c configs/config.json -m 44k
浅层扩散模型训练:python train_diff.py -c configs/diffusion.yaml
但是默认的参数可能并不适合,需要手动调整,我这里是12G显存,你们自行随机应变,爆显存可能会自动关机。
主模型默认batch6,lr0.0001,我调成了12,0.0002。这里learning rate一般要同比例缩放
浅扩散默认是batch48,lr0.0002,我调成了24,0.0001。(不知道是否需要继续下调,我跑了4000步之后还是自动关机了)主模型训练大家应该都见过,浅扩散模型训练起来长这样
三、模型推理:
模型推理用之前的命令也可以运行,建议直接使用webUI
python webUI.py
此处仅用于演示,实际使用中最好把模型训练到10000步左右
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 【.NET】调用本地 Deepseek 模型
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动!「GitHub 热点速览」
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 我与微信审核的“相爱相杀”看个人小程序副业