机器学习之特征归一化

　　当数据集的数值属性具有非常大的比例差异，往往导致机器学习的算法表现不佳，当然也有极少数特例。在实际应用中，通过梯度下降法求解的模型通常需要归一化，包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树不使用，以C4.5为例，决策树在进行节点分裂时主要依据数据集D关于特征X的信息增益比，而信息增益比根特征是否经过归一化是无关的。

　　同比例缩放所有属性常用的两种方法是：最小-最大缩放和标准化

　　最小-最大缩放（又加归一化），将值重新缩放使其最终范围在0-1之间，（current - min）/ (max - min)，Scikit-Learn提供了MinMaxSaler转换器可以完成该功能

　　标准化，(current - mean) / var，使得得到的结果分布具备单位方差，相比最小-最大缩放，标准化的方法受异常值的影响更小，同样Scikit-Learn也提供了StandScaler转换器

1. MinMaxScaler和StandScaler类结构

2. MinMaxScaler示例

>>> from sklearn.preprocessing import MinMaxScaler
>>>
>>> data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
>>> scaler = MinMaxScaler()
>>> print(scaler.fit(data))
MinMaxScaler(copy=True, feature_range=(0, 1))
>>> print(scaler.data_max_)
[  1.  18.]
>>> print(scaler.transform(data))
[[ 0.    0.  ]
 [ 0.25  0.25]
 [ 0.5   0.5 ]
 [ 1.    1.  ]]
>>> print(scaler.transform([[2, 2]]))
[[ 1.5  0. ]]

3. StandScaler示例

>>> data = [[0, 0], [0, 0], [1, 1], [1, 1]]
>>> scaler = StandardScaler()
>>> print(scaler.fit(data))
    StandardScaler(copy=True, with_mean=True, with_std=True)
>>> print(scaler.mean_)
    [ 0.5  0.5]
>>> print(scaler.transform(data))
    [[-1. -1.]
    [-1. -1.]
    [ 1.  1.]
    [ 1.  1.]]
>>> print(scaler.transform([[2, 2]]))
    [[ 3.  3.]]

posted @ 2019-04-05 13:44 Fate0729 阅读(1144) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Fate0729

当你的才华还撑不起你的野心时，那你就应该静下心来学习。当你的经济还撑不起你的梦想时，那你就应该踏实的去工作！

机器学习之特征归一化

1. MinMaxScaler和StandScaler类结构

2. MinMaxScaler示例

3. StandScaler示例

公告