摘要: 双向RNN可以让某一单元的输出不仅可以考虑之前的信息,也可以考虑后面时间步的信息。前向传播分为从左向右,从右向左两部分,这样,隐藏层神经元会产生两个激活值,均对输出有影响。 对很多NLP问题,双向带有LSTM的RNN用的最多。缺点是必须获取整个序列才能获得输出。 如果要学习复杂的函数,需要将更多层堆 阅读全文
posted @ 2019-08-30 21:11 喜琅琅 阅读(908) 评论(0) 推荐(0) 编辑
摘要: nn:w比1大,会造成激活函数、梯度爆炸。w比1小,梯度会消失。随机化初始权重有助于解决这个问题。 RNN同样有梯度消失问题,反向传播时后面的梯度很难传到前面的层,从而影响到前面的层的计算。梯度爆炸会发生数值溢出,可以通过修剪、缩放来解决。 GRU:记忆细胞C<t>的作用是提供记忆的能力。候选值C^ 阅读全文
posted @ 2019-08-30 00:28 喜琅琅 阅读(928) 评论(0) 推荐(0) 编辑