随笔 - 262  文章 - 1  评论 - 22  阅读 - 27万

Tacotron2(NVIDIA版)训练笔记

https://blog.csdn.net/qq_44951010/article/details/124828260

 


Tacotron2项目地址:https://github.com/NVIDIA/tacotron2
Tacotron2中文训练笔记:https://blog.csdn.net/qq_44951010/article/details/124830538
从科大讯飞爬取音频数据:https://blog.csdn.net/qq_44951010/article/details/124829630

步骤
下载项目或通过git clone https://github.com/NVIDIA/tacotron2.git拉取项目,

下载ljspeech数据集

conda创建虚拟环境conda create --name tacotron2 python=3.6,

激活环境conda activate tacotron2,

安装pytorch pip install toch==1.4(最好在tmux中安装),

安装其他依赖包pip install -r requirements.txt

进入filelists目录,当中有三个txt文件,记录了音频路径和文本的对应关系,'|'左边是音频路径,右边是相应的英文文本,

修改音频路径为ljspeech数据集的相对路径,示例(datasets与tacotron2在同一目录下):


打开hparams.py文件,里面是一些超参数,可以修改epoch(训练轮数),sampling_rate(采样率),batch_size(如果爆显存了可以把batch_size调小点)等,

运行python train.py --output_directory=outdir --log_directory=logdir进行训练,训练结果保存在outdir目录下

训练完成后,jupyter 运行inference.ipynb文件进行测试,

将checkpoint_path改为自己训练的模型路径,如outdir/checkpoint_40000,

下载WaveGlow项目,放到tacotron2目录下,

下载waveglow_256channels_universal_v5.pt文件,放到tacotron2目录下,

将jupyter内核切换为tacotron2环境,运行即可合成语音,text为要合成的文本

运行tensorboard --logdir=outdir/logdir命令,可以查看训练过程中的一些参数

参考
Tacotron2 运行笔记:https://mathor.blog.csdn.net/article/details/108846589
————————————————

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

原文链接:https://blog.csdn.net/qq_44951010/article/details/124828260

posted on   独上兰舟1  阅读(141)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示