嵌入式特征选择

嵌入式特征选择（Embedded Feature Selection）是一种在模型训练过程中自动选择重要特征的方法。相比前向逐步选择或随机抽样等独立的特征选择步骤，嵌入式特征选择能直接在模型构建中融入特征选择逻辑。其中，**L1 正则化（Lasso）**是一种典型的嵌入式特征选择方法。

什么是 L1 正则化

在 L1 正则化中，模型的损失函数会增加一个正则化项，表示为所有特征系数绝对值之和的乘积。假设我们有一个线性模型：

$损失函数=模型误差+λ∑∣wi∣\text{损失函数} = \text{模型误差} + \lambda \sum |w_i|$

其中：

$模型误差\text{模型误差}$ ：模型的主要误差（如均方误差 MSE）。
$w_i$ ：每个特征的系数。
$λ\lambda$ ：正则化强度的调节参数，控制正则化的影响大小。

L1 正则化的独特之处在于，增大 $λ\lambda$ 的值会导致模型中的一些特征系数 $w_i$ 缩小到 0，从而实现自动特征选择。这是因为 L1 正则化惩罚了所有非零系数的特征，而更倾向于选择少数重要特征，从而自动稀疏化模型。

为什么 L1 正则化可以实现特征选择

L1 正则化的主要特点在于它的 “稀疏化” 效果。这一效果源于：

在优化过程中，L1 正则化会对特征的权重施加绝对值的惩罚，使得一些特征的系数逐渐减小，最终达到 0。
如果某个特征的系数为 0，说明模型认为这个特征对预测结果贡献不大，可以舍弃该特征。
这样，L1 正则化不仅可以减少模型的复杂度，还可以防止过拟合，因为它去掉了不重要的特征，专注于影响较大的变量。

L1 正则化与 LASSO 回归

LASSO（Least Absolute Shrinkage and Selection Operator，最小绝对收缩和选择算子）是应用 L1 正则化的线性回归方法。其损失函数为：

$损失=12N∑i=1N(yi−Xiw)2+λ∑j=1p∣wj∣\text{LASSO 损失} = \frac{1}{2N} \sum_{i=1}^{N} (y_i - X_i w)^2 + \lambda \sum_{j=1}^{p} |w_j|$

其中：

$N$ 是样本数量， $y_i$ 是目标值， $X_i$ 是特征矩阵。
$∑j=1p∣wj∣\sum_{j=1}^{p} |w_j|$ 是 L1 正则化项。

通过调节 $λ\lambda$ ，LASSO 能选择不同数量的特征，当 $λ\lambda$ 较大时，模型变得更稀疏，最终可能只保留少数关键特征。

使用 L1 正则化的实际步骤

选择带有 L1 正则化的模型：例如，LASSO 回归、L1 正则化的逻辑回归或决策树模型。
设置正则化强度 $λ\lambda$ ：在训练时可以通过交叉验证调整该参数，以找到合适的特征数量。
模型训练：通过带有 L1 正则化的模型训练，使得不重要的特征系数收缩到 0。
提取重要特征：查看哪些特征的系数不为 0，它们即为 L1 正则化认为的重要特征。

总结

L1 正则化通过稀疏化特征系数，自动选择重要特征。
它可以嵌入到模型中，直接在训练过程中实现特征选择，简化了后续的特征工程。
使用 L1 正则化的模型如 LASSO 回归，是一种快速、有效的嵌入式特征选择方法。

posted @ 2024-10-31 17:40 王哲MGG_AI 阅读(109) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· LightGBM中用于控制模型的正则化和特征选择的参数

· 5.正则化

· L1正则化和L2正则化的区别

· L1和L2正则化的概率解释

· 为什么 L1 正则化能做特征选择而 L2 正则化不能

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· .NET10 - 预览版1新功能体验（一）

历史上的今天：
2023-10-31 RDA分析的通俗解释
2023-10-31 R : PCoA

公告

昵称：王哲MGG_AI
园龄： 1年10个月
粉丝： 143
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

王哲_UJN_MGG_AI

我坚信人们对于我们的脊骨，那无数次地探索、迷途、失败和成功，一定会给予热情、客观、公正的评定。是的，我焦急地等待他们的评定！

嵌入式特征选择

什么是 L1 正则化

为什么 L1 正则化可以实现特征选择

L1 正则化与 LASSO 回归

使用 L1 正则化的实际步骤

总结

公告

搜索

常用链接

随笔分类 (324)

随笔档案 (324)

相册 (7)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

王哲_UJN_MGG_AI

我坚信人们对于我们的脊骨，那无数次地探索、迷途、失败和成功，一定会给予热情、客观、公正的评定。 是的，我焦急地等待他们的评定！

嵌入式特征选择

什么是 L1 正则化

为什么 L1 正则化可以实现特征选择

L1 正则化与 LASSO 回归

使用 L1 正则化的实际步骤

总结

公告

搜索

常用链接

随笔分类 (324)

随笔档案 (324)

相册 (7)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

我坚信人们对于我们的脊骨，那无数次地探索、迷途、失败和成功，一定会给予热情、客观、公正的评定。是的，我焦急地等待他们的评定！