随笔 - 165,  文章 - 0,  评论 - 4,  阅读 - 18023

一.合成器
1.合成器的文本输入被处理成512维的character embedding,具体如下图所示:


2.建议参考B站视频:语音合成超简洁训练代码框架
二.GSTs
1.由于原Tacotron的encoder输出为256维度,与说话人编码器的输出speaker embedding(也是256维)连接后变为512维,为了匹配文本编码器的维数,每个token嵌入为512维。
2.梅尔频谱经过reference encoder后输出256维的嵌入,该嵌入与speaker embedding拼接得到512维的reference embedding,最后将reference embedding输入style layer得到512维的输出style embedding。
3.参考CSDN文章:论文阅读 Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

posted on   孜孜不倦fly  阅读(190)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· Manus的开源复刻OpenManus初探
· 写一个简单的SQL生成工具

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示