学习率衰减

随着时间推移，慢慢减少学习率\(α\)的大小。在初期\(α\)较大时，迈出的步长较大，能以较快的速度进行梯度下降，而后期逐步减小\(α\)的值，减小步长，有助于算法的收敛，更容易接近最优解。
常用到的几种学习率衰减方法有：

\[\alpha = \frac{1}{1+\text{decay_rate }* \text{epoch_num}} * \alpha_0 \]

\[\alpha = 0.95^{\text{epoch_num}} * \alpha_0 \]