数据降维 特征选取和主成分分析(PCA)
特征选择原因:
冗余:部分特征的相关度高,容易消耗计算性能
噪声:部分特征对预测结果有影响
一,特征选择(过滤式)
删除低方差的特征
特征选取代码如下:
from sklearn.feature_selection import VarianceThreshold def var(): """ 特征选择,删除低方差的特征 :return: """ var=VarianceThreshold(threshold=0.0) data=var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]]) print(data) return None if __name__ == '__main__': var()
运行结果如下:
[[2 0] [1 4] [1 1]]
二,主成分分析(PCA)
本质:PCA是一种分析,简化数据集的技术
目的:是数据维度压缩,尽可能降低原数据的维度(复杂度),损失少量信息。
作用:可以消减回归分析或者聚类分析中特征的数量