yangyang12138

导航

梯度爆炸和梯度消失

1.表现

  梯度爆炸主要表现在损失大幅度跳动,梯度消失主要表现是损失基本不变或在一个很小的范围内不断变化。

2.解决办法

  梯度消失可以替换激活函数为relu,缩减隐层

  梯度爆炸可以做梯度裁剪

  

fluid.clip.set_gradient_clip(
        clip=fluid.clip.GradientClipByGlobalNorm(clip_norm=5.0))

3.优化器

  1).AdamOptimizer

    公式:

      

      学习率会自动调整,适合稀疏的数据

 

  2).SGD

    随机梯度下降优化器

      

 

  3).DecayedAdagradOptimizer

    

 

posted on 2020-05-26 23:11  杨杨09265  阅读(437)  评论(0编辑  收藏  举报