欧式距离与余弦相似度

1)概述

  两者都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大;

  空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],越小。

2)计算公式

  欧氏距离(也叫几里得离)公式:

 

  余弦相似度的计算公式如下:

3)归一化

一般来说,为了比较的方便,都会对得到的结果进行归一化处理:

1)在欧氏距离公式中,取值范围会很大,一般通过如下方式归一化:

  sim = 1 / (1 + dist(X,Y))

2)因为余弦值的范围是 [-1,+1] ,相似度计算时一般需要把值归一化到 [0,1],一般通过如下方式:

  sim = 0.5 + 0.5 * cosθ

经过归一化处理以后,相似度全部落在了0和1之间,值越大,相似度越高。

4)相似度度量的选择

  选择哪种度量方式,没有统一的结论,要依据处理数据的特点来进行确定,可以参考一下知乎上关于这个问题的讨论:http://www.zhihu.com/question/19640394

 

 

 

posted @ 2014-04-09 14:50  Teckee  阅读(8595)  评论(0编辑  收藏  举报