数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。除了用作模型计算,标准化的数据还具有直接计算并生成复合指标的意义,是加权指标的必要操作。
- 实现中心化和正态分布的Z-Score
转换公式:
其中x表示原数据,x' 表示转化后的数据,mean表示样本均值,std表示样本的标准差。
这种方法适用于大多数的数据,也是很多工具默认的标准化方法。标准化后的数据以0为均值,1为方差的正态分布。但是Z-Score是一种中心化的方法,会改变数据原有的分布结构,不适合对稀疏数据做处理。
- 实现归一化的Max_Min
转换公式:
其中x表示原数据,x' 表示转化后的数据,Xmin表示样本中的最小值,Xmax表示样本中的最大值。
这种方法应用也很广泛,标准化的数据会落在[0, 1]区间,这种方法可以使得数据落在一定区间,还能较好的保持原数据结构。