Mockingbird_关于UI界面中可调节参数“Style、Accuracy、Maxlength”的解读

在深度学习中，使用学习好的模型做预测的过程叫inference（推测），UI界面中调节的以下参数，运行时均在inference.py中变化并且执行
一.Style
1.定位：

由图可见style_idx影响key，最后影响的是style_embed

key值（键值）是多头注意力机制函数中的输入参数，参考网址：循环神经网络的隐藏状态——理解注意力机制 Attention 中的Q、K、V （查询Query、键值Key、值项Value）

style_embed加入到encoder中
2.torch.tanh：许多激活函数之一，双曲正切函数
3.unsqueeze()函数：使张量增加一个维度，参考网址：【学习笔记】pytorch中squeeze()和unsqueeze()函数介绍
4.张量：tensor,参考网址：Pytorch 中张量的理解
二.Accuracy
1.定位：

2.min_stop_token:手动设置的终止生成语音的阈值，参考论文：论文阅读 Tacotron2
与频谱帧预测并行，解码器LSTM的输出和注意力上下文向量连接在一起，投影成一个标量送到sigmoid激活函数，来预测输出的序列完成时候已完成的概率。在推断过程中stop token自发地去终止程序，而不是在固定的时间内。具体而言，生成在概率超过阈值0.5的第一帧处完成。
3.由此参数可推测出本项目是tacotron和tacotron2的混合版本
三.Maxlength
1.定位：

解码循环的次数上限

posted on 2022-03-21 20:27 孜孜不倦fly 阅读(171) 评论(0) 收藏举报