皮尔森相关系数(Pearson correlation coefficient)
皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数,是最常用的一种相关系数。记为r,用来反映两个变量X和Y的线性相关程度,r值介于-1到1之间,绝对值越大表明相关性越强。
统计学术语:
期望值:\(E(X)\) 表示随机变量 \(X\) 的期望值。
标准差:反映一个数据集的离散程度,是方差的算术平方根。
总体标准差:
样本标准差:
协方差(Covariance):在概率论和统计学中用于衡量两个变量的总体误差。方差是协方差的一种特殊情况,即当两个变量是相同的情况。
定义:
两个变量之间的皮尔逊 相关系数定义为两个变量之间的协方差和标准差的商:
上式定义了总体相关系数,常用希腊小写字母 \(\rho\) 作为代表符号。估算样本的协方差和标准差,可得到样本相关系数(样本皮尔逊系数),常用英文小写字母 r 代表:
\(r\) 亦可由\((X_i,Y_i)\)样本点的标准分数均值估计,得到与上式等价的表达式:
其中 \(\frac{X_i-\overline{X}}{\sigma_X}\),\(\overline{X}\),\({\sigma_X}\) 分别是 \(X_i\) 样本的标准分数、样本平均值和样本标准差。
物理意义
皮尔森相关系数反映了两个变量的线性相关性的强弱程度,r的绝对值越大说明相关性越强。
当r>0时,表明两个变量正相关,即一个变量值越大则另一个变量值也会越大;
当r<0时,表明两个变量负相关,即一个变量值越大则另一个变量值反而会越小;
当r=0时,表明两个变量不是线性相关的(注意只是非线性相关),但是可能存在其他方式的相关性(比如曲线方式);
当r=1和-1时,意味着两个变量X和Y可以很好的由直线方程来描述,所有样本点都很好的落在一条直线上。
本文整理自网络