梯度消失和梯度爆炸

转载：https://zhuanlan.zhihu.com/p/25631496

1、梯度爆炸（gradient exploding）问题：参数更新过大，破坏了模型的稳定收敛

2、梯度消失（gradient vanishing）问题：参数更新过小，在每次更新时几乎不会移动，导致模型不能学习

3、梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。

一、梯度爆炸的问题

1、值超出值域，对于16位浮点数尤其严重

2、对学习率敏感

二、梯度消失问题

1、梯度值变为0，对于16位浮点数尤其严重

2、训练没有效果，不管如何选择学习率

3、对于底部层尤为重要

posted @ 2021-07-29 16:31 小秦同学在上学阅读(323) 评论(0) 编辑收藏举报

刷新页面返回顶部