Python机器学习（三十）Sklearn 预处理数据 - 大码王

数据标准化

大型数据分析项目中，数据来源不同，量纲及量纲单位不同，为了让它们具备可比性，需要采用标准化方法消除由此带来的偏差。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。这就是数据标准化。

对单个指标进行比较，假设对3名新生婴儿体重（5，6，7）和3名成年人的体重（150，151，152）差异的大小进行对比分析，从表面上看，两组人员的平均差异均为1斤，由此便得出两组人员的体重差异程度相同显然是不合适，因为两者的体重水平不在同一等级上，即量纲不同；

对多个指标进行综合分析，假设对商品的运营指标销售量、销售额、浏览量进行综合评价或聚类分析，由于各指标间的水平相差很大，如果直接进行分析会突出数值较高的指标在综合分析中的作用，从而使各个指标以不等权参与运算。

因此，常常需要先对数据进行标准化，对各统计指标进行无量纲化处理，消除量纲影响和变量自身变异大小和数值大小的影响。

数据标准化的常用方法

Max-Min标准化/离差标准化

Max-Min标准化也称为离散标准化，是对原始数据的线性变换，将数据值映射到[0, 1]之间。

转换公式为：x’=(x-min)/(max-min)，其中max为样本的最大值，min为样本的最小值。

离差标准化保留了原来数据中存在的关系，是消除量纲和数据取值范围影响的最简单方法。其缺陷是当有新数据加入时，可能导致max或min的变化，转换函数需要重新定义。

Z-score 标准化/标准差标准化/零均值标准化

Z-score也称标准差标准化，经过处理的数据的均值为0，标准差为1。

转化公式为：x’=(x-μ)/σ，其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

该方法对离群点不敏感，当原始数据的最大值、最小值未知或离群点左右了Max-Min标准化时非常有用，Z-Score标准化目前使用最为广泛的标准化方法。

log函数转换

通过以10为底的log函数转换的方法同样可以实现归一下，数据都要大于等于1

转化公式为：x’=log10(x)/log10(max)，其中max为样本数据最大值

sklearn数据标准化

sklearn.preprocessing提供了许多方便的用于做数据预处理工具，在数据标准化方面，sklearn.preprocessing提供了几种scaler进行不同种类的数据标准化操作。

示例

对digits.data数据进行标准化处理。

输出

数据进行标准化处理后，可以将每个属性的分布改为均值为零，标准差为1(单位方差)。

将数据分解为训练子集和测试子集

数据集除了用来训练模型，还需用来评估模型。需要将数据集分为两部分:训练子集和测试子集。

实践中，训练子集和测试子集是不互相覆盖的: 最常见的分割选择是将原始数据集的2/3作为训练集，剩下的1/3将组成测试集。

可以使用train_test_split函数将数据集随机划分为训练子集和测试子集，并返回划分好的训练集测试集样本和训练集测试集标签。

示例

将数据集随机划分为训练子集和测试子集。

随机数种子

随机数的产生取决于种子，随机数和种子之间的关系遵从以下两个规则：
种子不同，产生不同的随机数；种子相同，即使实例不同也产生相同的随机数。

随机数种子，其实就是该组随机数的编号，在需要重复试验的时候，种子相同可以保证得到一组一样的随机数。比如你每次都填1，其他参数一样的情况下，得到的随机数组是一样的，但填0或不填，则每次都会不一样。

输出：

1203
64
1203

可以看到，训练集X_train现在包含1203个样本，正好是原始数据集的2/3，每个样本有64个特征值。y_train训练集也包含原始数据集标签的2/3，测试集X_test和y_test各自包含剩下的594个样本。