余弦相似度
定义
余弦相似度(cosine similarity),又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。
概念
向量,是多维空间中有方向的线段,如下图是二维空间的两个向量:
如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。
要确定两个向量方向是否一致,可以用余弦定理计算向量的夹角。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。
计算
对于二维空间,根据向量点积公式可得:
假设向量a、b的坐标分别为(x1,y1)、(x2,y2) 。则:
设向量 A = (A1,A2,...,An),B = (B1,B2,...,Bn) 。推广到多维:
例如计算N维向量,展开之后就是:
应用
最常见的应用就是计算文本相似度。将两个文本根据他们词,建立俩个向量,计算这两个向量的余弦值,就可以知道两个文本的相似度情况。