为什么 L1 正则化能做特征选择而 L2 正则化不能

假设我们的模型只有一个参数 w,损失函数为 L(w),加入 L1 和 L2 正则化后的损失函数分别记为 J1(w),J2(w)

J1(w)=L(w)+λ|w|J2(w)=L(w)+λw2

原损失函数 Lw=0 处的导数记为 L(0),那么 J1w=0 处的左、右导数为:

J(0)=L(0)λJ+(0)=L(0)+λ

λ>|L(0)| 时,w=0 处的左导数 L(0)λ<0、右导数 L(0)+λ>0,此时 w=0J1 的一个极小值点。

也就是说,即使 L 不在 w=0 处取得极小值(L(0)0),我们也能够通过调节 λ 将损失函数的极小值点“转移”到 w=0

再来看 L2 正则化时的情况,J2w=0 处的导数为:

J2(0)=[L(w)+2λw]w=0=L(0)

由此可见,如果 L 不在 w=0 处取得极小值(L(0)0),那么加入 L2 正则项后仍然不可能在 w=0 处取得极小值。

总结:L1 正则化能将损失函数的极小值点“转移”到 w=0 处,而 L2 正则化无论如何设置 λ 都达不到这样的效果。

相关资料:

posted @   zhb2000  阅读(255)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
主题色彩
点击右上角即可分享
微信分享提示