学习率衰减

学习率衰减

随着时间推移,慢慢减少学习率\(α\)的大小。在初期\(α\)较大时,迈出的步长较大,能以较快的速度进行梯度下降,而后期逐步减小\(α\)的值,减小步长,有助于算法的收敛,更容易接近最优解。
常用到的几种学习率衰减方法有:

\[\alpha = \frac{1}{1+\text{decay_rate }* \text{epoch_num}} * \alpha_0 \]

\[\alpha = 0.95^{\text{epoch_num}} * \alpha_0 \]

\[\alpha = \frac{k}{\sqrt{\text{epoch_num}} }* \alpha_0 \]

其中的decay_rate为衰减率,epoch_num为将所有的训练样本完整过一遍的次数。

posted @ 2019-04-10 16:03  youngliu91  阅读(405)  评论(0编辑  收藏  举报