权重衰减和学习率衰减的区别

权重衰减（weight decay）：又叫L2正则化，意思是在损失函数后加一个L2正则项，反向求导时会发现此时权重的更新公式将会变化，一般权重会下降的更快，而应用了该方法的网络，最终某些权重会变成零，相当于在这个神经元上会被抛弃，即神经网络中某些权重归零，表示模型的复杂度下降了，多了一个零，少了一个参数。

学习率衰减（learning rate decay）就是调小学习率，对应于权重更新时梯度前的那个参数

两种参数都属于炼丹的参数