Toriyung

导航

神经网络:学习率衰减

比较简单的道理:

  当刚开始进行训练/进行梯度下降时,距离0梯度还有很长一段过程,所以此时可以大胆地提高训练步长,即保持高学习率

  而当梯度下降到一定程度,差不多在0梯度或目标梯度附近变动时,此时若保持高学习率,会造成无法收敛(如图蓝色曲线),所以需要降低学习率,以小步长进行梯度下降

 

常见的学习率衰减方式有许多,下面给出在pytorch框架下的一些衰减函数

https://zhuanlan.zhihu.com/p/380795956

 

posted on 2022-07-31 16:00  Toriyung  阅读(101)  评论(0编辑  收藏  举报