1. 梯度消失与梯度爆炸

  • gradient clipping
    • 梯度爆炸:min(grad_max,grad)
      • grad_max:梯度上限
    • 梯度消失:max(grad_min, grad)
      • grad_min:梯度下限;
posted on 2016-10-26 16:52  未雨愁眸  阅读(395)  评论(0编辑  收藏  举报