请比较欧式距离与曼哈顿距离?

 

 

 

1. 欧氏距离(Euclidean Distance)

欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。

欧氏距离

  • 二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离:

欧氏距离2维

  • 三维空间点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:

欧氏距离3维

  • n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离(两个n维向量):

欧氏距离n维

 

 

2. 曼哈顿距离(Manhattan Distance)

顾名思义,在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。

曼哈顿距离

  • 二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离:

曼哈顿距离2维

  • n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离:

曼哈顿距离n维

 

3. 切比雪夫距离 (Chebyshev Distance)

国际象棋中,国王可以直行、横行、斜行,所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?这个距离就叫切比雪夫距离。

切比雪夫距离_国际象棋

  • 二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离:

切比雪夫距离2维

  • n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的切比雪夫距离:

切比雪夫距离n维

 

为什么一些场景中使用余弦相似度而不是欧式距离

 

 

## 那么欧式距离和余弦相似度的应用场景是什么呢
以下场景案例是从网上摘抄的。

如某T恤从100块降到了50块(A(100,50)),某西装从1000块降到了500块(B(1000,500)),那么T恤和西装都是降价了50%,两者的价格变动趋势一致,可以用余弦相似度衡量,即两者有很高的变化趋势相似度,但是从商品价格本身的角度来说,两者相差了好几百块的差距,欧氏距离较大,即两者有较低的价格相似度。

如果要对电子商务用户做聚类,区分高价值用户和低价值用户,用消费次数和平均消费额,这个时候用余弦夹角是不恰当的,因为它会将(2,10)和(10,50)的用户算成相似用户,但显然后者的价值高得多,因为这个时候需要注重数值上的差异,而不是维度之间的差异。

两用户只对两件商品评分,向量分别为(3,3)和(5,5),显然这两个用户对两件商品的偏好是一样的,但是欧式距离给出的相似度显然没有余弦值合理。

posted @ 2020-11-10 17:00  MiQing4in  阅读(3828)  评论(0编辑  收藏  举报