在深度学习中,使用学习好的模型做预测的过程叫inference(推测),UI界面中调节的以下参数,运行时均在inference.py中变化并且执行
一.Style
1.定位:
由图可见style_idx影响key,最后影响的是style_embed
key值(键值)是多头注意力机制函数中的输入参数,参考网址:循环神经网络的隐藏状态——理解注意力机制 Attention 中的Q、K、V (查询Query、键值Key、值项Value)
style_embed加入到encoder中
2.torch.tanh:许多激活函数之一,双曲正切函数
3.unsqueeze()函数:使张量增加一个维度,参考网址:【学习笔记】pytorch中squeeze()和unsqueeze()函数介绍
4.张量:tensor,参考网址:Pytorch 中张量的理解
二.Accuracy
1.定位:
2.min_stop_token:手动设置的终止生成语音的阈值,参考论文:论文阅读 Tacotron2
与频谱帧预测并行,解码器LSTM的输出和注意力上下文向量连接在一起,投影成一个标量送到sigmoid激活函数,来预测输出的序列完成时候已完成的概率。在推断过程中stop token自发地去终止程序,而不是在固定的时间内。具体而言,生成在概率超过阈值0.5的第一帧处完成。
3.由此参数可推测出本项目是tacotron和tacotron2的混合版本
三.Maxlength
1.定位:
解码循环的次数上限
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· Manus的开源复刻OpenManus初探
· 写一个简单的SQL生成工具