特征工程笔记

1.特征工程介绍

这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。

特征工程包含内容:

  • 特征清洗
    • 清洗异常样本(缺失值填充,异常值处理)
    • 采样(数据不均衡问题)
  • 预处理
    • 归一化 数据变换
    • 降维
      • PCA 无监督降维方法 使样本具有更大的发散性
      • LDA 有监督降维方法 线性分类器 ,使相同类别的点,将会在投影后的空间中更接近
    • 特征处理 独热编码
    • 特征选择
      • 方差选择法 计算每个特征的方差 ,选择方差大于阈值的特征。
      • 相关系数法 计算特征与结果的相关系数
      • 决策树

2. 代码实现

  1. 预处理(挖坑)
  2. 特征选择(挖坑)
  3. 降维
    • PCA
from sklearn.decomposition import PCA
 #主成分分析法,返回降维后的数据
 #参数n_components为主成分数目
PCA(n_components=2).fit_transform(iris.data)
- LDA
from sklearn.lda import LDA
#线性判别分析法,返回降维后的数据
#参数n_components为降维后的维数
LDA(n_components=2).fit_transform(iris.data, iris.target)
posted @ 2019-08-02 20:31  FromZeroToOne  阅读(181)  评论(0编辑  收藏  举报