L1正则化比L2正则化更易获得稀疏解的原因
我们知道L1正则化和L2正则化都可以用于降低过拟合的风险,但是L1正则化还会带来一个额外的好处:它比L2正则化更容易获得稀疏解,也就是说它求得的w权重向量具有更少的非零分量。
为了理解这一点我们看一个直观的例子:假定x有两个属性,于是无论是采用L1正则化还是采用L2正则化,它们解出的w权重向量都具有两个分量,即w1,w2;我们将其作为两个坐标轴,然后在这个二维空间中绘制
平方误差取值相同的连线,再分别绘制出L1范数和L2范数的等值线,那么我们的解就是平方误差等值线和范数等值线的焦点。从图上(机器学习 周志华 第十一章 图11.2)我们可以看出L1范数和平方误差等值曲线的交点
经常落在坐标轴上,而L2范数和平方误差等值曲线的交点只是分量比较小。所以我们说L1正则化比L2正则化更容易获得稀疏解,因为L1正则化的权重向量的分量为零的可能性更大。