梯度爆炸和梯度消失
1.表现
梯度爆炸主要表现在损失大幅度跳动,梯度消失主要表现是损失基本不变或在一个很小的范围内不断变化。
2.解决办法
梯度消失可以替换激活函数为relu,缩减隐层
梯度爆炸可以做梯度裁剪
fluid.clip.set_gradient_clip(
clip=fluid.clip.GradientClipByGlobalNorm(clip_norm=5.0))
3.优化器
1).AdamOptimizer
公式:
学习率会自动调整,适合稀疏的数据
2).SGD
随机梯度下降优化器
3).DecayedAdagradOptimizer