机器学习之数据归一化

1.数据归一化的目的
   数据归一化的目的,就是将数据的所有特征都映射到同一尺度上,这样可以避免由于量纲的不同使数据的某些特征形成主导作用。
2.数据归一化的方式
(1)最值归一化
    特点: 可以将所有数据都映射到0-1之间,它适用于数据分布有明显边界的情况,容易受到异常值的影响,异常值会造成数据的整体偏斜。
    公式:
  
(2)均值归一化
    特点: 可以将数据归一化到均值为0方差为1的分布中,不容易受到异常值影响。
    公式:
    
    注:上边两个式子的分母根据自己数据需求选择,这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min。
(3)Z-score归一化
    特点:这种方法给予原始数据的均值(mean)和标准差(sd)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。
    公式:
    
(4)非线性归一化
    特点:经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。
 
 
 
 
posted @ 2019-11-13 15:19  ly_godc  阅读(551)  评论(0编辑  收藏  举报