简单相关性分析(两个连续型变量)

转自：https://zhuanlan.zhihu.com/p/36441826

一、变量间的关系分析

变量之间的关系可分为两类：

存在完全确定的关系——称为函数关系
不存在完全确定的关系——虽然变量间有着十分密切的关系，但是不能由一个或多各变量值精确地求出另一个变量的值，称为相关关系，存在相关关系的变量称为相关变量

相关变量的关系也可分为两种：

两个及以上变量间相互影响——平行关系
一个变量变化受另一个变量的影响——依存关系

它们对应的分析方法：

相关分析是研究呈平行关系的相关变量之间的关系
回归分析是研究呈依存关系的相关变量之间的关系

回归分析和相关分析都是研究变量之间关系的统计学课题，两种分析方法相互结合和渗透

二、简单相关分析

相关分析：就是通过对大量数字资料的观察，消除偶然因素的影响，探求现象之间相关关系的密切程度和表现形式

主要研究内容：现象之间是否相关、相关的方向、密切程度等，不区分自变量与因变量，也不关心各变量的构成形式

主要分析方法：绘制相关图、计算相关系数、检验相关系数

1、计算两变量之间的线性相关系数

所有相关分析中最简单的就是两个变量间的线性相关，一变量数值发生变动，另一变量数值会随之发生大致均等的变动，各点的分布在平面图上大概表现为一直线。

线性相关分析，就是用线性相关系数来衡量两变量的相关关系和密切程度

给定二元总体 $(X,Y)$

总体相关系数用 $ρ$ 来表示：

$ρ_{X,Y}=\frac{cov(X,Y)}{\sqrt{var(X)var(Y)}}=\frac{E[(X-\mu_X)(Y-\mu_Y)]}{\sqrt{\sigma_{X}^{2}\sigma_{Y}^{2}}}$

$\sigma_x^2$ 为 $X$ 的总体方差，

$\sigma_y^2$ 是 $Y$ 的总体方差，

$cov(X,Y)$ 是 $x$ 与 $y$ 的协方差。

浅谈一下协方差定义：

设 $(X,Y)$ 是二维随机变量，若 $E[(X-E(X))(Y-E(Y))]$ 存在，

则称 $cov(X,Y)=E[(X-E(X))(Y-E(Y))]$ ，叫 $X$ 与 $Y$ 的协方差，也叫 $X$ 与 $Y$ 的相关（中心）矩

即 $X$ 的偏差" $X-E(X)$ "与 $Y$ 的偏差" $Y-E(Y)$ "乘积的期望。

解读：

当 $Cov(X,Y)>0$ ， $X$ 的偏差" $X-E(X)$ "跟 $Y$ 的偏差" $Y-E(Y)$ "，有同时增加或同时减少的倾向，又由于 $E(X)$ 和 $E(Y)$ 都是常数，所以就能够等价于 $X$ 与 $Y$ 有同时增加或者减少的倾向，称 $X$ 与 $Y$ 正相关
当 $Cov(X,Y)<0$ ， $X$ 的偏差" $X-E(X)$ "跟 $Y$ 的偏差" $Y-E(Y)$ "，有 $X$ 增加 $Y$ 减少的倾向，或 $Y$ 增加 $X$ 减少的倾向，称 $X$ 与 $Y$ 负相关
当 $Cov(X,Y)=0$ ，称 $X$ 与 $Y$ 不相关，这时可能是“ $X$ 与 $Y$ 取值毫无关联”，也可能是“有某种特殊的非线性关系”

根据柯西-施瓦尔兹不等式(Cauchy–Schwarz inequality)：

$[Cov(X,Y)]^2\leq \sigma_X^2 \sigma_Y^2$

变形得 $\rho_{X,Y}$ 在区间 $[-1,1]$

$ρ_{X,Y}$ 是没有单位的，因为分子协方差的量纲除以了分母的与分子相同的量纲

两变量线性相关性越密切， $\left| ρ_{X,Y} \right|$ 接近于 $1$
两变量线性相关性越低， $\left| ρ_{X,Y} \right|$ 接近于 $0$
$\left| ρ_{X,Y} \right|=0$ 的情况跟上面 $Cov(X,Y)=0$ 情况一样

协方差与相关系数的关系，就像绝对数与相对数的关系。

Pearson 相关系数(样本线性相关系数)

但是，学过统计的都知道，我们一般用样本线性相关系数来估计总体线性相关系数

设 $(X,Y)$ 是二元总体，简单随机抽样 $(x_1,y_1)$ ， $(x_2,y_2)$ ，......， $(x_n,y_n)$

样本均值： $\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i$ ， $\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i$

样本方差： $s_{xx}=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2$ ， $s_{yy}=\frac{1}{n-1}\sum_{i=1}^n(y_i-\bar{y})^2$

样本协方差： $s_{xy}=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})$

样本相关系数：

$r=\frac{s_{xy}}{\sqrt{s_{xx}s_{yy}}}=\frac{l_{xy}}{l_{xx}l_{yy}}=\frac{\sum_{}^{}{(x-\bar{x})(y-\bar{y})}}{\sqrt{\sum{(x-\bar{x})^2\sum{(y-\bar{y})^2}}}}$

$l_{xx}$ 为 $x$ 的离差平方和， $l_{yy}$ 为 $y$ 的离差平方和， $l_{xy}$ 为 $x$ 与 $y$ 离差乘积之和(可正可负)

实际计算可按下面简化：

$l_{xx} = \sum_{i=1}^n{(x-\bar{x})^2} = \sum_{i=1}^n{x}^2-\frac{(\sum_{i=1}^n x)^2}{n}$

$l_{yy} = \sum_{i=1}^n(y-\bar{y})^2 = \sum_{i=1}^n{y}^2-\frac{(\sum_{i=1}^ny)^2}{n}$

$l_{xy} = \sum_{i=1}^n(x-\bar{x})(y-\bar{y}) =\sum_{i=1}^nxy-\frac{(\sum_{i=1}^nx)(\sum_{i=1}^ny)}{n}$

例子：研究身高与体重的关系(R语言)

> x <- c(171,175,159,155,152,158,154,164,168,166,159,164)
> y <- c(57,64,41,38,35,44,41,51,57,49,47,46)
> plot(x,y)
> lxy <- function(x,y){
+     n = length(x);
+     return(sum(x*y)-sum(x)*sum(y)/n)
+ }
> lxy(x,x)
[1] 556.9167
> lxy(y,y)
[1] 813
> lxy(x,y)
[1] 645.5
> r <- lxy(x,y)/sqrt(lxy(x,x)*lxy(y,y))
> r
[1] 0.9593031
也能直接用cor()
> cor(x,y)

[1] 0.9593031

这里的 $r>0$ ，说明身高和体重是正的线性相关关系

至于 $r$ 是否显著，就要看下面的显著性检验了。

Python版本的代码如下：

>>> import numpy as np

>>> import matplotlib.pyplot as plt

>>> x = np.array([171,175,159,155,152,158,154,164,168,166,159,164])

>>> y = np.array([57,64,41,38,35,44,41,51,57,49,47,46])

>>> np.corrcoef(x, y)

array([[1.        , 0.95930314],

[0.95930314, 1.        ]])

>>> plt.scatter(x, y)

>>> plt.show()

2、相关系数的假设检验

引入假设检验的原因： $r$ 与其他统计指标一样，也会有抽样误差。从同一总体内抽取若干大小相同的样本，各样本的样本相关系数总会有波动。即根据样本数据是否有足够的证据得出总体相关系数不为0的结论

要判断不等于 $0$ 的 $r$ 值是来自总体相关系数 $ρ=0$ 的总体，还是来自 $\rho\ne0$ 的总体，必须进行显著性检验

由于来自 $\rho=0$ 的总体的所有样本相关系数呈白噪声或者其他特殊分布

（为什么？看图第一行中间、第三行）

因为样本间没有线性相关性，可能会杂乱无章(即什么关系也没有)，也可能呈现出一些非线性关系(更高阶的关系Pearson相关系数并不能表示出来)

关于 $\rho=0$ 会在第 3 章继续探讨

所以 $r$ 的显著性检验可以用双侧 $t$ 检验来进行

（1）建立检验假设： $H_{0}:\rho=0，H_{1}:\rho\ne0，\alpha=0.05$

（2）构造 $t$ 统计量，计算相关系数 $r$ 的 $t$ 值： $t=\frac{|r-\rho| \sqrt{n-2}}{\sqrt{1-r^2}}=\frac{|r-0|}{\sqrt{\frac{1-r^2}{n-2}}}$

此 $t$ 近似服从 $t(n-2)$ 分布，如果数据严格服从二元正态分布

$\Gamma$ 是 gamma 函数， $F_1(a,b;c;d)$ 是高斯超几何函数。

当总体相关系数 $\rho=0$ 时（假定两个随机变量是正态无相关的），样本相关系数 $r$ 的密度函数为： $f(r)=\frac{(1-r^2)^{\frac{n-4}{2}}}{B(\frac{1}{2},\frac{n-2}{2})}$ ， $B$ 是 beta 函数，此密度函数碰巧就是统计量 $t$ 就是自由度为 $n-2$ 的 $t$ 分布；

（3）计算 $t$ 值和 $P$ 值，做结论

在 R语言中有 cor.test() 函数

# r的显著性检验,参数alternative默认是"two.side"即双侧t检验 method默认"pearson" > cor.test(x1, x2) Pearson's product-moment correlation

data: x1 and x2 t = 10.743, df = 10, p-value = 8.21e-07 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.8574875 0.9888163 sample estimates: cor 0.9593031

R的 cor.test() 在这里给出的结果还是比较丰富的。

$t$ 值为 $10.743$
$df$ 自由度是 $10$
$P-value$ $=8.21\times10^{-7}<0.05$ ，在显著性水平 $\alpha=0.05$ 上拒绝 $H_{0}$ ，接受 $H_{1}$ 认为该人群身高和体重成正线性关系
置信度为 $95\%$ 的区间估计是 $[0.8574875,0.9888163]$ ，意思是总体线性相关系数 $\rho$ 取值在 $[0.8574875,0.9888163]$ 上的概率是 $95\%$
$\rho$ 的点估计为 $0.9593031$

这段检验该如何解读？

这段代码检验了身高和体重的Pearson相关系数为 $0$ 的原假设

假设总体相关度为 $0$ ，则预计在一百万次中只会有少于一次的机会见到 $0.9593031$ 这样大的相关度（即 $P-value=8.21\times10^{-7}$ ）

但其实这种情况几乎不可能发生，所以可以拒绝掉原假设，即身高和体重的总体相关度不为 $0$

注意：

相关系数的显著性是与自由度 $(n-2)$ 有关，也就是与样本数量 $n$ 有关（这也是相关系数很明显的缺点）。

样本量小，相关系数绝对值容易接近于 $1$ ，样本量大，相关系数绝对值容易偏小。

容易给人一种假象

在样本量很小 $n=3$ ，自由度 $n-2=1$ 时，虽然 $r=-0.907$ 却是不显著

在样本量很大 $n=400$ 时，即使 $r=-0.1$ ，也是显著的

所以不能只看 $r$ 值就下结论，还要看样本量大小

所以，我们要拿到充分大的样本，就能把样本相关系数 $r$ 作为总体相关系数 $\rho$ ，这样就不必关心显著性检验的结果了

3、 $\rho=0$ 与无法度量非线性关系的强度

举《Statisitcal Inference第二版》里面的例子4.5.9

$X \sim U(-1,1)$ ， $Z\sim U(0,0.1)$

令 $Y=X^2+Z$ ，其中 $EX=EX^3=0$ ， $X$ 与 $Z$ 独立即 $EXZ=(EX)(EZ)$

但是 $Cov(X, Y)=EXY-EXEY=EX(X^2+Z)-(EX)(E(X^2+Z))$

$=EX^3+EXZ-0E(X^2+Z)=0+(EX)(EZ)$

$=0(EZ)=0$

进而 $\rho_{X,Y}=\frac{Cov(X,Y)}{\rho_X\rho_Y}=0$

但明明是类似于二阶抛物线的关系，Pearson相关系数却为 $0$ ？！！

这就明显说明了Pearson相关系数无法度量非线性关系的强度

下次会继续深入探讨多变量相关性分析

参考书籍：

《多元统计分析及R语言》第四版——王斌会
《概率论与数理统计教程》第二版——茆诗松 / 程依鸣 / 濮晓龙
《R语言实战》第2版——Robert I. Kabacoff
《Statistical Inference》——George Casella / Roger L. Berger
相关系数检验 Using the exact distribution https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

posted @ 2020-05-12 11:20 Le1B_o 阅读(2746) 评论(0) 编辑收藏举报

刷新页面返回顶部

LeeB_o

简单相关性分析(两个连续型变量)

目录：

一、变量间的关系分析

二、简单相关分析

1、计算两变量之间的线性相关系数

也能直接用cor()

2、相关系数的假设检验

method默认"pearson"

3、 $\rho=0$ 与无法度量非线性关系的强度

公告

LeeB_o

简单相关性分析(两个连续型变量)

目录：

一、变量间的关系分析

二、简单相关分析

1、计算两变量之间的线性相关系数

也能直接用cor()

2、相关系数的假设检验

method默认"pearson"

3、 与无法度量非线性关系的强度

公告

3、 $\rho=0$ 与无法度量非线性关系的强度