摘要: 1RNN为什么会有梯度消失问题 (1)沿时间反向方向:t-n时刻梯度=t时刻梯度* π(W*激活函数的导数) (2)沿隐层方向方向:l-n层的梯度=l层的梯度*π(U*激活函数的导数) 所以激活函数的导数和W连乘可以造成梯度消失和爆炸;由函数曲线看sigmoid的导数最大是1/4; 2LSTM可以避 阅读全文
posted @ 2017-04-18 18:35 rongyux 阅读(7590) 评论(0) 推荐(0) 编辑