从向量的角度理解皮尔逊相关系数
高中数学学的向量中有一个重要的公式用于计算两个向量之间的夹角:
在笛卡尔坐标系中有向量 (x1,y1)和(x2,y2),他们间夹角的cos值等于 向量内积 除以 两个向量摸的乘积。
如果你仔细比较一下 求向量夹角的公式和皮尔逊公式,你会发现他们之间很相似!但还是有点不一样。
是的,实际上来说,皮尔逊公式 和 向量夹角公式 不同点主要有二:
第一:皮尔逊公式做了数据的中心化处理,相当于把均值当作笛卡尔坐标系的原点,所以在分子和分母中都出现了减去均值的操作
第二:向量夹角公式用于笛卡尔坐标系,是二维平面,而皮尔逊公式的维度则等于数据序列的长度,它相当于在比较两个n维空间中的向量的夹角,其中n等于数据序列的长度。
向量的夹角越小,两个向量就越一致,余弦值就越大,皮尔逊相关系数就越大。