特征工程笔记
1.特征工程介绍
这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。
特征工程包含内容:
- 特征清洗
- 清洗异常样本(缺失值填充,异常值处理)
- 采样(数据不均衡问题)
- 预处理
- 归一化 数据变换
- 降维
- PCA 无监督降维方法 使样本具有更大的发散性
- LDA 有监督降维方法 线性分类器 ,使相同类别的点,将会在投影后的空间中更接近
- 特征处理 独热编码
- 特征选择
- 方差选择法 计算每个特征的方差 ,选择方差大于阈值的特征。
- 相关系数法 计算特征与结果的相关系数
- 决策树
2. 代码实现
- 预处理(挖坑)
- 特征选择(挖坑)
- 降维
- PCA
from sklearn.decomposition import PCA
#主成分分析法,返回降维后的数据
#参数n_components为主成分数目
PCA(n_components=2).fit_transform(iris.data)
- LDA
from sklearn.lda import LDA
#线性判别分析法,返回降维后的数据
#参数n_components为降维后的维数
LDA(n_components=2).fit_transform(iris.data, iris.target)