随笔- 54 文章- 0 评论- 1 阅读- 16787

L1和L2正则化的概率解释

https://zhuanlan.zhihu.com/p/56185913

$L1$ 正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，用于特征筛选；

$L2$ 正则化可以防止过拟合，提升模型的泛化能力。

假设待优化函数为 $f(\theta)$ ，其中 $\theta\in\mathbb{R}^n$ ，那么优化问题可以转化为求

$\\ \mathop{\arg\min}_{\theta}\ f(\theta)$

$L1$ 正则化，即对参数 $\theta$ 加上 $L1$ 范数约束

$\mathop{\arg\min}_{\theta}\ J_1(\theta)=f(\theta)+\color{magenta}\lambda\color{magenta}{\Vert\theta\Vert_1} \\$

$L2$ 正则化，即对参数 $\theta$ 加上 $L2$ 范数的平方约束

$\mathop{\arg\min}_{\theta}\ J_2(\theta)=f(\theta)+\color{magenta}{\lambda\Vert\theta\Vert_2^2 }\\$

彩色公式

\color{颜色名称} {需要渲染的公式}

“L2正则化是指权值向量w 中各个元素的平方和然后再求平方根。”这句话不准确，

二范数才是 向量w 中各个元素的平方和然后再求平方根，而L2正则化其实是对二范数求平方

正则化的作用

https://zhuanlan.zhihu.com/p/356234693

正则化的主要作用是防止过拟合，对模型添加正则化项可以限制模型的复杂度，使得模型在复杂度和性能达到平衡。

常用的正则化方法有L1正则化和L2正则化。L1正则化和L2正则化可以看做是损失函数的惩罚项。

所谓『惩罚』是指对损失函数中的某些参数做一些限制。

L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归。

但是使用正则化来防止过拟合的原理是什么？L1和L2正则化有什么区别呢？

下面看李飞飞在CS2312中给的更为详细的解释：

L2正则化可以直观理解为它对于大数值的权重向量进行严厉惩罚，倾向于更加分散的权重向量。

由于输入和权重之间的乘法操作，这样就有了一个优良的特性：使网络更倾向于使用所有输入特征，而不是严重依赖输入特征中某些小部分特征。

L2惩罚倾向于更小更分散的权重向量，这就会鼓励分类器最终将所有维度上的特征都用起来，而不是强烈依赖其中少数几个维度。。这样做可以提高模型的泛化能力，降低过拟合的风险。

L1正则化有一个有趣的性质，它会让权重向量在最优化的过程中变得稀疏（即非常接近0）。也就是说，使用L1正则化的神经元最后使用的是它们最重要的输入数据的稀疏子集，同时对于噪音输入则几乎是不变的了。

相较L1正则化，L2正则化中的权重向量大多是分散的小数字。

在实践中，如果不是特别关注某些明确的特征选择，一般说来L2正则化都会比L1正则化效果好。

posted on 2022-06-27 13:44 Real_Yuan 阅读(75) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 最小二乘法

· Prune network 简单却很巧妙的idea

· 机器学习-L1和L2正则化理解

· L1正则化和L2正则化的区别

· 正则化是如何防止过拟合的

公告

昵称： Real_Yuan
园龄： 2年8个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类

C language(6)

Matlab_memo(11)

ML_basic(3)

Model predictive control(1)

MPC 笔记(5)

NN_learning(4)

补充(1)

穿越计算机的迷雾(7)

传递函数(6)

电机(1)

激活函数(1)

剪枝(1)

闲谈(1)

在线学习(3)

随笔档案

2022年8月(1)

2022年7月(36)

2022年6月(17)

阅读排行榜

评论排行榜

1. 电流环(1)