正则化L1 和L2 和Elastic Net（待更）

一、什么是正则化

　　英文 Ragularization

　　使模型普通化、均匀化、一般化，防止或减小模型的过拟合。

二、正则化项（惩罚项）

　　英文 Ragularizer（Penalty）

　　经验风险 -- 经验指模型的预测值和数据真实值的相近程度

　　结构风险 -- 结构指模型，当数据量偏少时，复杂结构的模型存在过拟合风险

三、具体内容

　　正则化项可以是模型参数的范数，这里只介绍一范数的L1 和二范数的L2。

　　1、L1 -- Lasso

　　　　一范数L1，实际是模型参数的绝对值，然后求和：

　　　　　　$$\sum_{i} | w_i| $$

　　　　其中 $ w_i $ 是模型的参数。

　　　　以2 维为例，模型参数为$ w_1 $，$ w_2 $。

　　　　蓝色 -- 损失函数，中心最小

　　　　黄色 -- L1，红线内为允许范围

　　　　多数情况下，黄色区域的顶点处，取到最优解$w^* $。而顶点都是在轴上的，代表有的模型参数为0，所以L1 可以进行特征选择。

　　2、L2 -- Ridge

　　　　二范数L2，实际是模型参数的平方，然后求和：

　　　　　　$$\sum_{i} w_i^2 $$

　　　　以2 维为例，模型参数为$ w_1 $，$ w_2 $。

　　　　黄色区域的边缘处，均有可能取到最优解$w^* $。最优解不被限制在轴上，模型参数都可取到值，所以L2 可以分散特征，同时表现特征的重要程度。

　　3、L1 + L2 -- Elastic Net

　　　　Paper ← 论文链接

　　　　（1）原始Elastic Net

　　　　　　公式（3）是损失函数。

　　　　　　公式（4）是最优解。

　　　　　　公式（5）是公式（3）的构建过程：原最小二乘 + 约束项

　　　　　　我们称约束项为 elastic net penalty。

　　　　　　$ \alpha $就是调节Lasso 和Ridge 的两者占比程度。

　　　　（2）Elasitc Net（待更）

posted @ 2023-12-04 20:45 paramotor 阅读(161) 评论(0) 收藏举报

刷新页面返回顶部

paramotor

正则化L1 和L2 和Elastic Net（待更）

一、什么是正则化

二、正则化项（惩罚项）

三、具体内容

1、L1 -- Lasso

2、L2 -- Ridge

3、L1 + L2 -- Elastic Net

（1）原始Elastic Net

（2）Elasitc Net（待更）

公告

　　1、L1 -- Lasso

　　2、L2 -- Ridge

　　3、L1 + L2 -- Elastic Net

　　　　（1）原始Elastic Net

　　　　（2）Elasitc Net（待更）