MockingBird_代码与论文不同的细节

一.合成器
1.合成器的文本输入被处理成512维的character embedding，具体如下图所示：

2.建议参考B站视频：语音合成超简洁训练代码框架
二.GSTs
1.由于原Tacotron的encoder输出为256维度，与说话人编码器的输出speaker embedding（也是256维）连接后变为512维，为了匹配文本编码器的维数，每个token嵌入为512维。
2.梅尔频谱经过reference encoder后输出256维的嵌入，该嵌入与speaker embedding拼接得到512维的reference embedding，最后将reference embedding输入style layer得到512维的输出style embedding。
3.参考CSDN文章：论文阅读 Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

posted on 2022-05-26 23:39 孜孜不倦fly 阅读(205) 评论(0) 收藏举报