神经网络在训练时最后会得到误差loss,神经网络会根据误差反向学习:
当反向学习的权重W < 1时,loss * W会逐级减小,甚至接近0。 这就是梯度消失。
当反向学习的权重W > 1时,loss * W会逐级增大,最后变得非常大。这就是梯度爆炸。
loss1 loss2 loss3 loss4 loss5 lossn loss
<< ------------------------------------------------------------------------------------------------ ^
W1 W2 W3 W4 W5 ...... Wn |
------------------------------------------------------------------------------------------ >> loss |
t1 t2 t3 t4 t5 ...... tn