皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

之前《皮尔逊相关系数(Pearson Correlation Coefficient, Pearson's r)》一文介绍了皮尔逊相关系数。那么,皮尔逊相关系数(Pearson Correlation Coefficient)余弦相似度(Cosine Similarity)之间有什么关联呢?

 

首先,我们来看一下什么是余弦相似度。说到余弦相似度,就要用到余弦定理(Law of Cosine)

假设两个向量之间的夹角为向量的长度分别是对应的边长为向量减去向量的长度,也就是

根据余弦定理:

对上式进行推导:

这样最终可以得到:

 

就是余弦相似度,取值在-1和1之间。如果两个向量方向相反,那么等于-1;如果两个向量方向相同,那么等于1。可以看出,两个向量之间的夹角越小,其夹角余弦越大(越相似)。因此余弦相似度可以用来度量两个变量之间的相似程度。

 

上面针对的是二维空间,(x1,y1),(x2,y2)两个向量之间的夹角余弦为:

 

扩展到n维空间,(x1,x2,...,xn),(y1,y2,...,yn)两个向量之间的夹角余弦就是:

 

如果对上式数据做标准化处理:

 

夹角余弦公式就会变为:

 

对比皮尔逊相关系数的公式:

 

这两者不是完全一样吗?

 

因此,我们得到结论:皮尔逊相关系数就是把两组数据标准化处理之后的向量夹角的余弦。

 

posted @ 2019-01-03 15:35  HuZihu  阅读(9270)  评论(0编辑  收藏  举报