特征预处理&特征降维

写在前面

这篇博客的主要内容

应用MinMaxScaler实现对特征数据进行归一化
应用StandardScaler实现对特征数据进行标准化
应用VarianceThreshold实现删除低方差特征
应用pearsonr计算皮尔逊系数
应用PCA实现特征的降维

特征预处理

定义

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

特征预处理API

sklearn.preprocessing

为什么要进行归一化/标准化？

特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些算法无法学习到其它的特征

归一化

定义

通过对原始数据进行变换把数据映射到(默认为[0,1])之间

归一化公式

作用于每一列，max为一列的最大值，min为一列的最小值,那么X’’为最终结果，mx，mi分别为指定区间值默认mx为1,mi为0

API

sklearn.preprocessing.MinMaxScaler (feature_range=(0,1)… )
- MinMaxScalar.fit_transform(X)
  - X:numpy array格式的数据[n_samples,n_features]
- 返回值：转换后的形状相同的array

数据

milage,Liters,Consumtime,target
40920,8.326976,0.953952,3
14488,7.153469,1.673904,2
26052,1.441871,0.805124,1
75136,13.147394,0.428964,1
38344,1.669788,0.134296,1

代码

from sklearn.preprocessing import MinMaxScaler
import pandas as pd
def minmax_demo():
    data = pd.read_csv("dating.txt")
    print(data)
    # 1、实例化一个转换器类
    transfer = MinMaxScaler(feature_range=(2, 3))
    # 2、调用fit_transform
    data = transfer.fit_transform(data[['milage','Liters','Consumtime']])
    print("最小值最大值归一化处理的结果：\n", data)

    return None

结果

归一化运行结果

标准化

定义

通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内

公式

标准化公式

作用于每一列，mean为平均值，σ为标准差

API

sklearn.preprocessing.StandardScaler( )
- 处理之后每列来说所有数据都聚集在均值0附近标准差差为1
- StandardScaler.fit_transform(X)
  - X:numpy array格式的数据[n_samples,n_features]
- 返回值：转换后的形状相同的array

数据

同上归一化介绍中使用的数据

代码

from sklearn.preprocessing import StandardScaler
import pandas as pd
def stand_demo():
    data = pd.read_csv("dating.txt")
    print(data)
    transfer = StandardScaler()
    data = transfer.fit_transform(data[['milage','Liters','Consumtime']])
    print("标准化的结果：\n",data)
    print("每一列特征的平均值：\n",transfer.mean_)
    print("每一列特征的方差：\n",transfer.var_)
    return None

运行结果

标准化运行结果

特征降维

定义

降维是指在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程

降维的两种方式

特征选择
主成分分析（可以理解一种特征提取的方式）

特征选择

定义

数据中包含冗余或无关变量（或称特征、属性、指标等），旨在从原有特征中找出主要特征。

特征选择方法

Filter(过滤式)：主要探究特征本身特点、特征与特征和目标值之间关联
- 方差选择法：低方差特征过滤
- 相关系数
Embedded (嵌入式)：算法自动选择特征（特征与目标值之间的关联）
- 决策树:信息熵、信息增益
- 正则化：L1、L2
- 深度学习：卷积等

特征选择API

sklearn.feature_selection

过滤式

低方差特征过滤

删除低方差的一些特征，前面讲过方差的意义。再结合方差的大小来考虑这个方式的角度。

特征方差小：某个特征大多样本的值比较相近
特征方差大：某个特征很多样本的值都有差别

API

sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
- 删除所有低方差特征
- Variance.fit_transform(X)
  - X:numpy array格式的数据[n_samples,n_features]
  - 返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。

数据

factor_returns.csv

部分截图

部分数据截图

代码

from sklearn.feature_selection import VarianceThreshold
def variance_demo():
    '''
    过滤方差特征
    :return:
    '''
    # 1.获取数据
    data = pd.read_csv("factor_returns.csv")
    data = data.iloc[:,1:-2]
    print(data)
    # 2.实例化一个转换器
    transfer = VarianceThreshold(threshold=10)
    # 3.调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new：\n",data_new,data_new.shape)

    return None

运行结果

主成分分析

定义

高维数据转化为低维数据的过程，在此过程中可能会舍弃原有数据、创造新的变量

作用

是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。

API

sklearn.decomposition.PCA(n_components=None)
- 将数据分解为较低维数空间
- n_components:
  - 小数：表示保留百分之多少的信息
  - 整数：减少到多少特征
- PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features]
- 返回值：转换后指定维度的array

数据

[[2,8,4,5],
[6,3,0,8],
[5,4,9,1]]

代码

from sklearn.decomposition import PCA
def pca_demo():
    """
        对数据进行PCA降维
        :return: None
        """
    data = [[2, 8, 4, 5], [6, 3, 0, 8], [5, 4, 9, 1]]

    # 1、实例化PCA, 小数——保留多少信息
    transfer = PCA(n_components=0.9)
    # 2、调用fit_transform
    data1 = transfer.fit_transform(data)
    print("保留90%的信息，降维结果为：\n", data1)

    # 1、实例化PCA, 整数——指定降维到的维数
    transfer2 = PCA(n_components=3)
    # 2、调用fit_transform
    data2 = transfer2.fit_transform(data)
    print("降维到3维的结果：\n", data2)

    return None

运行结果

posted @ 2021-01-23 22:50 xppp11 阅读(354) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

昵称： xppp11
园龄： 6年4个月
粉丝： 11
关注： 17

+加关注

2025年3月

日

一

二

三

四

五

六

随笔档案

阅读排行榜

评论排行榜

1. Typora+PicGo+Gitee打造博客图床(2)

Noor9

夯实基础，提高阅读能力

特征预处理&特征降维

写在前面

特征预处理

定义

特征预处理API

为什么要进行归一化/标准化？

归一化

定义

API

数据

代码

结果

标准化

定义

公式

API

数据

代码

运行结果

特征降维

定义

降维的两种方式

特征选择

定义

特征选择方法

特征选择API

过滤式

低方差特征过滤

API

数据

代码

运行结果

相关系数

公式

特点

API

数据

代码

运行结果

主成分分析

定义

作用

API

数据

代码

运行结果

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论