数据标准化

数据标准化 Normalization

  • 把特征的各个维度标准化到特定的区间
  • 把有量纲表达式变为无量纲表达式
  • 归一化是标准化的一种

Min-Max Feature Scaling

\[x' = \frac{x\; - \; X_{min}}{X_{max} \;\;\; - \;\;X_{min}} \]

  • 特点:
    1.当有新数据加入时,可能导致 max 和 min 发生变化,需要重新定义。
    2.如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min
    3.训练集的max,min不适用于测试集。
    4.数据处理后范围在0-1之间。

Z-score(零均值标准化、标准差标准化)

\[z = \frac{x\; - \; \mu}{\sigma} \]

  • 特点:
    1.经过处理的数据符合标准正态分布,即均值为 0,标准差为 1 。其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
    2.对于每个特征来说所有数据都聚集在0附近,方差为1。

Ref.

https://en.wikipedia.org/wiki/Feature_scaling
https://www.zhihu.com/question/20467170
https://blog.csdn.net/u011092188/article/details/78174804
https://en.wikipedia.org/wiki/Normalization_(statistics)

posted @ 2019-09-29 16:04  youqia  阅读(405)  评论(0编辑  收藏  举报