L1正则化和L2正则化

为什么L1正则可以得到稀疏权重,而L2正则可以防止过拟合?

角度一

  • L1的权值更新公式为wi = wi – η * 1, 权值每次更新都固定减少一个特定的值(学习速率),那么经过若干次迭代之后,权值就有可能减少到0。
  • L2的权值更新公式为wi = wi – η * wi,虽然权值不断变小,但每次减小的幅度不断降低,所以很快会收敛到较小的值但不为0。

 

角度二

 

 

 

 

 

 

 

 

参考博客

https://www.cnblogs.com/lyr2015/p/8718104.html

 

posted @ 2019-06-24 21:33  xd_xumaomao  阅读(96)  评论(0编辑  收藏  举报