梯度消失和梯度爆炸
转载:https://zhuanlan.zhihu.com/p/25631496
1、梯度爆炸(gradient exploding)问题:参数更新过大,破坏了模型的稳定收敛
2、梯度消失(gradient vanishing)问题:参数更新过小,在每次更新时几乎不会移动,导致模型不能学习
3、梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。
一、梯度爆炸的问题
1、值超出值域,对于16位浮点数尤其严重
2、对学习率敏感
- 学习率太大,导致大的参数值,从而更大的梯度
- 学习率太小,训练没有进展
- 我们需要在训练过程中不断的调整学习率
二、梯度消失问题
1、梯度值变为0,对于16位浮点数尤其严重
2、训练没有效果,不管如何选择学习率
3、对于底部层尤为重要