【机器学习】归一化数值

1. 为什么要归一化？

表示一个事物有不同的维度｛即：属性｝，每个属性的取值范围不同，导致计算时此属性占用的权重不同，即数据的量纲不同，量纲小的数据容易受到量纲大的数据影响。

如：

计算两个人的差异：

diff = (A.身高-B.身高)² + (A.年龄-B.年龄)²+ (A.收入-B.收入)²

= (1.75-1.81)² + (41-26)²+ (40000-10000)²

= 0.0036 + 225 + 900000000

距离 = diff^1/2= 30000.00375

问题来了，看这些属性，发现收入占用的权重太高，身高和年龄占用的权重相对较低，怎么弱化收入占用的权重呢？

我们把身高，年龄和收入这些属性映射到一个单位区间（0，1）中。

图中，根据梯形的特点可以得到如下公式

(1 - 0) / (max - min) = (归一化值 - 0) / (属性值 - min)

所以，归一化值 = (属性值 - min) / (max - min)

备注：

这种方法的优点是：可以把数据压缩到0-1空间内，但是对量纲大的数据压缩比例比较大。

假如3个属性最大和最小值如下:

经过归一化操作后：

使用归一化值计算两个人的差异：

diff = (A.身高归一化值-B.身高归一化值)² + (A.年龄归一化值-B.年龄归一化值)²+ (A.收入归一化值-B.收入归一化值)²

= (0.61-0.678)² + (0.294-0.235)²+ (0.397-0.196)²

= 0.004624 + 0.003481 + 0.040401

计算的值可以看出，3个属性占用的权重在一个数量级上，每个属性都不会独大。

距离 = diff^1/2= 0.2202

posted @ 2015-12-15 12:08 Mr.YF 阅读(4018) 评论(0) 收藏举报

刷新页面返回顶部

Mr.YF