学习率衰减
学习率衰减
随着时间推移,慢慢减少学习率\(α\)的大小。在初期\(α\)较大时,迈出的步长较大,能以较快的速度进行梯度下降,而后期逐步减小\(α\)的值,减小步长,有助于算法的收敛,更容易接近最优解。
常用到的几种学习率衰减方法有:
\[\alpha = \frac{1}{1+\text{decay_rate }* \text{epoch_num}} * \alpha_0
\]
\[\alpha = 0.95^{\text{epoch_num}} * \alpha_0
\]
\[\alpha = \frac{k}{\sqrt{\text{epoch_num}} }* \alpha_0
\]
其中的decay_rate为衰减率,epoch_num为将所有的训练样本完整过一遍的次数。