Tacotron2语音合成
Tacotron2语音合成
Tacotron2是由Google Brain提出来的一个语音合成框架.
模型架构:
机器环境:
在Ubuntu16.04 Ubuntu16.04 GPU GeForce RTX 2080(单个GPU)
TensorFlow1.15 cuda10.0 cudnn7.6.3下完成.
github上有一个Tacotron-2的Tensorflow实现,地址
https://github.com/Rayhane-mamah/Tacotron-2
用上面的开源代码跑Ljspeech数据集,tacotron_train_steps跑了 100000,wavenet_train_steps只跑了130000(默认是500000),声码器用的WaveNet.
由于机器内存不够跑了几次出现OOM,后来把hparams.py文件里面的参数max_mel_frames由900改为500,tacotron_batch_size由32改成16,outputs_per_step由1改成3,由于tensorflow版本原因,需要将modules.py文件里面的
self._track_checkpointable(layer,name=‘layer’)改成
self._track_trackable(layer,name=‘layer’),否则会报错.
跑了好几天才跑完.
执行命令
python synthesize.py --model ='Tacotron-2’合成语音.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY