关于皮尔逊相关系数(Pearson Correlation Coefficient)的一点理解
对于两个向量
应该如何度量它们之间的相似度?
一种度量思路是考虑它们之间的欧几里德距离:
另外一个度量思路是考虑它们之间的皮尔逊相关系数:
公式的定义与概率论中相关系数的定义一致,反映了两个随机变量之间的相关性。
对于上述公式,在分子分母上同时乘以向量的维数n,可以得到如下的公式:
将向量X,Y中每一项减去向量的平均值,即将向量做一下平移:
可以看到上式即为向量X', Y'之间夹角的余弦值:
故,利用欧几里德距离计算X, Y的相似度,将X,Y看成高维空间中的两个点,反映了高维空间中两点之间的距离;利用皮尔逊相关系数计算X,Y之间的相似度,将X,Y看成高维空间中的两个向量,反映向量之间的夹角大小。
posted on 2014-06-27 15:41 vanilla_sky 阅读(3118) 评论(0) 编辑 收藏 举报