特征工程3:缺失值及数据降维
缺失值的处理
由于各种原因,许多现实世界的数据集包含缺少的值,通常编码为空白,NaN或其他占位符。然而,这样的数据集与scikit-learn的分类器不兼容,它们假设数组中的所有值都是数字,并且都具有和保持含义。使用不完整数据集的基本策略是丢弃包含缺失值的行或列。然而,这样的代价是可能丢失有价值的数据,如果每行或每列缺失数据占比比较大,建议直接放弃这些数据,否则更好的策略是估算缺失值,并将其填充。
scikit-learn中填充缺失值的API是Imputer类,使用方法如下:
from sklearn.preprocessing import Imputer
import numpy as np
# 缺失值填补的时候必须得是float类型
# 缺失值要填充为np.nan,它是浮点型,strategy是填充的缺失值类型,这里填充平均数,axis代表轴,这里第0轴是列
im = Imputer(missing_values='NaN',strategy='mean',axis=0)
data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])
print(data)
参数strategy有三个值可选:mean(平均值),median(中位数),most_frequent(众数)
输出结果:
array([[ 1., 2.],
[ 4., 3.],
[ 7., 6.]])
可见:之前的缺失值被这一列的平均值((1+7)/2=4)填充了
数据降维
1、数据降维是什么?
降维不是指的数组的维度减少,而是特征的数量减少。
2、为什么要降维?
当数据集的特征非常多时,特征冗余,要么是一些无用的特征,要么是表达重复信息的特征,这些数据会消耗计算性能,正确降维后的数据一般保留了原始数据的大部分重要信息,完全可以替代原始数据作为输入,从而提高性能。
3、常用的两种降维方式:1、特征选择; 2、 主成分分析(PCA);
1、特征选择
特征选择是什么?
特征选择就是从所有特征中选择一部分特征作为算法的输入数据
特征选择的三种方法:
-
过滤式(Filter):VarianceThreshold
-
嵌入式(Embedded):正则化、决策树
-
包裹式(Warpper)
-
神经网络
这里我们先只介绍过滤式的方差过滤,包裹式很少使用,嵌入式和神经网络留到后面具体介绍
scikit-learn中使用方差进行过滤的API是:feature_selection.VarianceThreshold
from sklearn.feature_selection import VarianceThreshold # 返回值:训练集将删除方差低于threshold的特征,threshold默认为0,即删除方差为0的特征 var = VarianceThreshold(threshold=0.0) # 使用fit_transform进行转化 data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]) print(data)
输出结果:
array([[2, 0], [1, 4], [1, 1]])
上面使用方差过滤后,输出结果是删除了方差为0的数据。 过滤式的方法常用的就是方差选择,因为方差代表了数据的稳定性,方差越小,数据的波动越小,对结果的影响也就越小,方差为0时,说明这一列的特征值相同,对于结果判断毫无影响,因此将其删除,以提高计算性能。
2、主成分分析(PCA)
主成分分析是什么?
顾名思义:主成分分析即对数据集进行简化,通过线性变换将多个特征合并为少数互不相关的综合特征(即主成分),简化之后,数据的维度降低,但所包含的信息量并不减少,能够最大限度的反映原始数据。
scikit-learn中PCA的API是:decomposition.PCA
当特征数量非常多达到上百时,才有必要使用主成分分析,下面只是用四个特征演示一下用法
from sklearn.decomposition import PCA # n_components:指定要保留的数据信息为90%,通常保留值在90%-95%之间 pca = PCA(n_components=0.9) data = pca.fit_transform([[2,8,4,5], [6,3,0,8], [5,4,9,1]]) print(data)
PCA中的参数n_components可以为整数,也可以为小数; 为小数时代表保留的信息百分比,比如上面0.9就是保留90%的信息; 为整数时代表保留的特征数量,我们通常不会预先知道保留几个特征比较合适,所以通常不用整数。
输出结果:
array([[ -9.33473422e-16, 3.82970843e+00], [ -5.74456265e+00, -1.91485422e+00], [ 5.74456265e+00, -1.91485422e+00]])
总结:
1、scikit-learn中缺失值的处理;
2、数据降维的两种方式:过滤式特征选择、PCA(主成分分析);
3、过滤式特征选择所得到数据是原始数据的子集,PCA得到的数据是经过重新计算的,不是原始数据的子集,但保留了原始数据所代表的信息。