余弦相似度

定义

余弦相似度(cosine similarity),又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。

 

概念

向量,是多维空间中有方向的线段,如下图是二维空间的两个向量:

 

如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。
要确定两个向量方向是否一致,可以用余弦定理计算向量的夹角。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。

 

计算

对于二维空间,根据向量点积公式可得:


假设向量a、b的坐标分别为(x1,y1)、(x2,y2) 。则:


设向量 A = (A1,A2,...,An),B = (B1,B2,...,Bn) 。推广到多维:

例如计算N维向量,展开之后就是:

 

应用
最常见的应用就是计算文本相似度。将两个文本根据他们词,建立俩个向量,计算这两个向量的余弦值,就可以知道两个文本的相似度情况。

 

posted @ 2015-06-18 16:40  relucent  阅读(3690)  评论(0编辑  收藏  举报