机器学习之数据归一化

1.数据归一化的目的

数据归一化的目的，就是将数据的所有特征都映射到同一尺度上，这样可以避免由于量纲的不同使数据的某些特征形成主导作用。

2.数据归一化的方式

（1）最值归一化

特点：可以将所有数据都映射到0-1之间，它适用于数据分布有明显边界的情况，容易受到异常值的影响，异常值会造成数据的整体偏斜。

公式：

（2）均值归一化

特点：可以将数据归一化到均值为0方差为1的分布中，不容易受到异常值影响。

公式：

注：上边两个式子的分母根据自己数据需求选择，这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷，如果max和min不稳定，很容易使得归一化结果不稳定，使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min。

（3）Z-score归一化

特点：这种方法给予原始数据的均值（mean）和标准差（sd）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1。

公式：

（4）非线性归一化

特点：经常用在数据分化比较大的场景，有些数值很大，有些很小。通过一些数学函数，将原始值进行映射。该方法包括 log、指数，正切等。

posted @ 2019-11-13 15:19 ly_godc 阅读(603) 评论(0) 收藏举报

刷新页面返回顶部