随笔 - 165,  文章 - 0,  评论 - 4,  阅读 - 18023


在深度学习中,使用学习好的模型做预测的过程叫inference(推测),UI界面中调节的以下参数,运行时均在inference.py中变化并且执行
一.Style
1.定位:

由图可见style_idx影响key,最后影响的是style_embed

key值(键值)是多头注意力机制函数中的输入参数,参考网址:循环神经网络的隐藏状态——理解注意力机制 Attention 中的Q、K、V (查询Query、键值Key、值项Value)

style_embed加入到encoder中
2.torch.tanh:许多激活函数之一,双曲正切函数
3.unsqueeze()函数:使张量增加一个维度,参考网址:【学习笔记】pytorch中squeeze()和unsqueeze()函数介绍
4.张量:tensor,参考网址:Pytorch 中张量的理解
二.Accuracy
1.定位:

2.min_stop_token:手动设置的终止生成语音的阈值,参考论文:论文阅读 Tacotron2
与频谱帧预测并行,解码器LSTM的输出和注意力上下文向量连接在一起,投影成一个标量送到sigmoid激活函数,来预测输出的序列完成时候已完成的概率。在推断过程中stop token自发地去终止程序,而不是在固定的时间内。具体而言,生成在概率超过阈值0.5的第一帧处完成。
3.由此参数可推测出本项目是tacotron和tacotron2的混合版本
三.Maxlength
1.定位:

解码循环的次数上限

posted on   孜孜不倦fly  阅读(162)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· Manus的开源复刻OpenManus初探
· 写一个简单的SQL生成工具

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示