皮尔森相关系数(Pearson correlation coefficient)

皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数,是最常用的一种相关系数。记为r,用来反映两个变量X和Y的线性相关程度,r值介于-1到1之间,绝对值越大表明相关性越强。

统计学术语:

期望值\(E(X)\) 表示随机变量 \(X\)​ 的期望值。

标准差:反映一个数据集的离散程度,是方差的算术平方根。

总体标准差:

\[\sigma = \sqrt{\frac{\sum_{i=1}^n(x-\overset{-}{x})^2}{n}} \]

样本标准差:

\[S = \sqrt{\frac{\sum_{i=1}^n(x-\overset{-}{x})^2}{n-1}} \]

协方差(Covariance):在概率论和统计学中用于衡量两个变量的总体误差。方差是协方差的一种特殊情况,即当两个变量是相同的情况。

\[\begin{equation} \begin{aligned} Cov(X,Y) &= E[(X-E(X))(Y-E(Y))] \\ &= E(XY) - 2E(X)E(Y) + E(X)(Y) \\ &= E(XY) - E(X)E(Y) \end{aligned} \end{equation} \]

定义:

两个变量之间的皮尔逊 相关系数定义为两个变量之间的协方差和标准差的商:

\[\begin{equation} \begin{aligned} \rho_{X,Y} &= \frac{cov(X,Y)}{\sigma_X\sigma_Y} \\ &= \frac{E[(X-E(X))(Y-E(Y))]}{\sigma_X\sigma_Y} \end{aligned} \end{equation} \]

上式定义了总体相关系数,常用希腊小写字母 \(\rho\)​​​​​​ 作为代表符号。估算样本的协方差和标准差,可得到样本相关系数(样本皮尔逊系数),常用英文小写字母 r 代表:

\[r=\frac{\sum_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y})}{\sqrt{\sum_{i=1}^n(X_i-\overline{X})^2}\sqrt{\sum_{i=1}^n(Y_i-\overline{Y})^2}} \]

\(r\) 亦可由\((X_i,Y_i)\)​​​样本点的标准分数均值估计,得到与上式等价的表达式:

\[r=\frac{1}{n-1}\sum_{i=1}^n(\frac{X_i-\overline{X}}{\sigma_X})(\frac{Y_i-\overline{Y}}{\sigma_Y}) \]

其中 \(\frac{X_i-\overline{X}}{\sigma_X}\)​,\(\overline{X}\)​,\({\sigma_X}\)​ 分别是 \(X_i\)​ 样本的标准分数、样本平均值和样本标准差。

物理意义

皮尔森相关系数反映了两个变量的线性相关性的强弱程度,r的绝对值越大说明相关性越强。

当r>0时,表明两个变量正相关,即一个变量值越大则另一个变量值也会越大;
当r<0时,表明两个变量负相关,即一个变量值越大则另一个变量值反而会越小;
当r=0时,表明两个变量不是线性相关的(注意只是非线性相关),但是可能存在其他方式的相关性(比如曲线方式);
当r=1和-1时,意味着两个变量X和Y可以很好的由直线方程来描述,所有样本点都很好的落在一条直线上。

本文整理自网络

posted @ 2021-10-04 10:15  南石  阅读(7532)  评论(0编辑  收藏  举报