sklearn学习--特征选择

特征选择

当特征特别多的时候,且有冗余的情况下,对特征进行选择不仅能使训练速度加快,还可以排除一些负面特征的干扰。sklearnfeature_seletion提供了它许多特征选取函数,目前包括单变量选择方法递归特征消除算法。它们均为转化器,故在此不举例说明如何使用。

除了使用feature_seletion的方法选取特征外,我们也可以选择那些带有特征选择的模型进行选择特征,例如随机森林会根据特征的重要程度对特征打分。

Pineline

使用pineline可以按顺序构建从数据处理到和训练模型的整个过程。pineline中间的步骤必须转化器(对数据进行处理)。使用pineline的好处就是可以封装一个学习的过程,使得重新调用这个过程变得更加方便。中间的过程用多个二元组组成的列表表示。

from sklearn.pipeline import Pipeline
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
clf = LogisticRegression()
new_clf = Pipeline([('pca',pca),('clf',clf)]) 

上面的封装的估计器,会先用PCA将数据降至两维,在用逻辑回归去拟合。

posted @   黄某人233  阅读(249)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」
点击右上角即可分享
微信分享提示