数据降维 特征选取和主成分分析(PCA)

特征选择原因:

冗余:部分特征的相关度高,容易消耗计算性能

噪声:部分特征对预测结果有影响

一,特征选择(过滤式)

删除低方差的特征

特征选取代码如下:

from sklearn.feature_selection import VarianceThreshold
def var():
    """
    特征选择,删除低方差的特征
    :return:
    """
    var=VarianceThreshold(threshold=0.0)
    data=var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])
    print(data)

    return None


if __name__ == '__main__':
    var()

运行结果如下:

[[2 0]
 [1 4]
 [1 1]]

 二,主成分分析(PCA)

本质:PCA是一种分析,简化数据集的技术

目的:是数据维度压缩,尽可能降低原数据的维度(复杂度),损失少量信息。

作用:可以消减回归分析或者聚类分析中特征的数量

 

posted @ 2021-01-22 22:17  凝气强者  阅读(263)  评论(0编辑  收藏  举报