深度学习-序列模型2

RNN新生成序列采样，这样做的动机：因为要看训练好的模型不知道在那些方面表现的好，具体来分析，便于进一步改进模型。数学角度说，就是检查训练好的数据分布是怎样的。

具体来说：

１、按照生成模型那样，先生成第一个单词，softmax分布进行随机抽选，第二个词在第一个词的基础上进行生成，第三个在前两个词的基础上进行生成。

２、直至EOS结束，或者句子到达一定长度停止。

词典：基于字符的，基于词的，现在一般情况都用的时基于词的词典。

GRU : 如何缓解梯度消失的？
加入gamma u 无限小，那么基本上就是值传递不断传递到最后，这就是一定程度上缓解了梯度消失，

并且gamma u选用sigmoid函数，那么就比较容易产生接近0的数字。

补充了重置门，经过研究者的大量实验，能够使得网络更深，学习的更好。

LSTM：单独的控制遗忘门，能够更独立，不像时GRU那样直接依赖的１－ｕ，所以表现的效果更好。

GRU 计算更快，适合更大规模的网络。

LSTM更加强大，更加灵活，因为门都是独立的。

posted @ 2021-10-09 20:25 踏浪前行阅读(46) 评论(0) 收藏举报

刷新页面返回顶部

踏浪前行