L1正则化和L2正则化
为什么L1正则可以得到稀疏权重,而L2正则可以防止过拟合?
角度一
- L1的权值更新公式为
wi = wi – η * 1
, 权值每次更新都固定减少一个特定的值(学习速率),那么经过若干次迭代之后,权值就有可能减少到0。 - L2的权值更新公式为
wi = wi – η * wi
,虽然权值不断变小,但每次减小的幅度不断降低,所以很快会收敛到较小的值但不为0。
角度二
参考博客
https://www.cnblogs.com/lyr2015/p/8718104.html