固定学习率:1、学习的相对比较慢 2、最终结果不能收敛在一个小的范围内。
学习率衰减的本质:
在刚开始学习的时候,你可以承受较大的步数,快速到局部最优点附近,然后衰减学习率,让最终的值在最小值附近不断游离,以此来保证最终值收缩在一定范围