【数理统计基础】 06 - 相关分析和方差分析

1. 相关分析

1.1 相关系数

  在一堆变量中,找到并分析它们之间的关系,是复杂环境和模型中的重要任务。由于线性关系的特殊、常见和简单,数学上往往采用线性关系来逼近实际关系。上篇的线性回归以及概率论中的线性回归,更关注的是线性函数的参数估计。如果想单纯地度量随机变量的线性关系,直接讨论相关系数即可,请先复习斜方差的相关概念。

  两个变量之间的线性关系,就是之前学过的协方差的概念Cov(X,Y)。在得到n个样本(Xi,Yi)后,容易得到式(1)的无偏估计,注意其中降低了一个自由度,继而还可以有式(2)的样本相关系数。相关系数是线性关系的直接度量,它可以作为相关假设的检验条件,最常用的就是当|r|C时认为X,Y是不相关的。

(1)1n1i=1n(XiX¯)(YiY¯)Cov(X,Y)

(2)r=1SXSYi=1n(XiX¯)(YiY¯),SX2=i=1n(XiX¯)2

   为了能找到关于r的枢轴变量,这里还是要做一些假设,即(X,Y)是一个二元正态分布。回顾二元正态分布的知识(《初等概率论》第5篇公式(27)),可知X,Y完全符合一元线性回归的模型。为此这里暂且取定Xi,而把Yi看成随机变量,并对它们进行一元回归分析。比较发现系数估计满足α1=rSYSX,在假设ρ=0(即系数a1=0)的情况下,把这个等式代入上篇公式(12)右的枢轴变量,整理后得到式(3)。由于该结论与Xi的取值无关,因此它对于变量Xi也成立,它就是我们要找的枢轴变量。

(3)rn21r2tn2

1.2 复相关系数

  相关系数度量了两个随机变量之间的线性关系,当系统中的变量很多时,关系也会变得复杂,这时需要引入更多的关系分析。以下记要讨论的n个变量为XiXi,Xj的相关系数为ρij,并记矩阵P=[ρij],而去除ij列后的子矩阵记作Pij。在得到样本后,同样可以计算样本相关系数rij,并记矩阵R=[rij]和子矩阵Rij

  首先比较容易想到的关系,是一个变量X1与多个变量X2,,Xp的整体关系。回顾概率论中的线性回归,假设X1X2,,Xp的线性回归是L(X2,,Xp),则容易证明X1LX2,,Xp都不相关。仿照线性空间中的最小二乘法,L可以看成是X1X2,,Xp空间中“投影”,故用X1L的关系作为X1X2,,Xp的关系是比较合理的,这个关系被称为X1X2,,Xp复相关系数(式(4)左)。

(4)ρ1(23p)=Cov(X1,L)D(X1)D(L)=1|P|/|P11|

  式(4)右的证明比较繁杂,这里先从一些引论开始。考察随机变量Y和随机向量X=[X1,,Xn],为简化讨论,设它们已经中心化。设Y关于X的回归函数是L(X)=α1X1++αnXn,则由最小二乘法可以得到式(5)。求解方程组便得到α=[α1,,αn]T的解为Cx1Cy,其中Cx,Cy分别为方程组的系数矩阵和常数列向量。

(5)min{E[Yi=1nαiXi]2}i=1nCov(Xi,Xj)αi=Cov(Y,Xj)

  然后可以计算得Cov(Y,L)=D(L)=CyTCx1Cy,这时再计算复相关系数,并把协方差换算成相关系数,可得式(6)左。其中PyYXi的相关系数组成的列向量,而PxXi之间的相关系数组成的矩阵。设Px的伴随矩阵为Px,而记P(Y,X1,,Xn)的相关系数矩阵,则不难发现,|P|按第1行、第1列展开后其实是|Px|PyTPxPy。这样就有了式(6)右成立,同样也有式(4)右成立。

(6)ρY(X)=PyTPx1Py=1|P|/|Px|

  在得到样本后,利用rij来估计ρij,带入式(4)后算得的估计值称为样本复相关系数r1(23p)。当(X1,,Xp)p维正态分布时,为检验假设ρ1(23p)=0,可以证明有式(7)的枢轴变量。

(7)npp1r21r2F(p1)/2,(np)/2

1.3 偏相关系数

  有时候两个变量X1,X2的相关性并不是因为它们有直接联系,而是因为它们共同与X3,,Xp相关。所以有必要将X3,,Xp的相关性从X1,X2中去除后再计算X1,X2的相关性,步骤也是比较自然的,先计算出X1,X2X3,,Xp的线性回归Li(X3,,Xp),然后计算X1=X1L1,X2=X2L2的相关系数。这样的关系被称为X1,X2X3,,Xp偏相关系数(式(8)左)。

(8)ρ12(3p)=Cov(X1,X2)D(X1)D(X2)=|P12||P11||P22|

  上面引理证明过程中的结论,同样可以证明式(8)右,请自行补齐证明过程。另外同样地,可以利用rij估计式(8)得到样本偏相关系数ρ12(3p)。当(X1,,Xp)p维正态分布时,为检验假设r12(3p)=0,可以证明有式(9)的枢轴变量。

(9)rnp1r2tnp

2. 方差分析

2.1 单因素完全实验

  前面的讨论都集中在线性关系上,更一般地还需要讨论一般的关系模型Y=f(X)+e。确定具体的f(x)是一个很开放的问题,前面的线性模型算一种,数学中还有很多逼近理论也可以派上用场。这里不深入讨论f(x)本身,而是只解决最简单的假设检验问题,即XY是否有显著影响。

  以下假设Xk个采样值Xi,任务是检验Yi是否受Xi影响较大。由于Y还受到随机因素e的影响,在同一个Xi下一定要有多个Y的采样值,才能对Yi有个较好的估计。设Yini个采样值Yij,并记n=n1++nk,模型可以写成式(10)。把模型中心化会更便于处理,故令f(Xi)=μ+ai,其中a1++ak=0

(10)Yij=f(Xi)+eij=μ+ai+eij,(eije)

  你可能注意到,Xi的具体值在这里并不重要,不同的Xi只是对Yij的一个分组,要检验的假设其实是分布并不受分组影响。以下记Yij的平均值是Y¯,而记Yi1,,Yini的平均值是Y¯i。想要搞清楚Yij是否受分组影响,首先当然要看Y¯i的分散程度。然后因为随机值eij会影响Y¯i的精确性,评估时还要对比eij的分散程度。

  具体来说,分散程度一般用平方和来度量,这样的统计量一般称为离差平方和。最简单的就是所有样本Yij总离差平方和QT(式(11)左),其次是每个f(Xi)组内离差平方和QE(式(11)右)。直观上可以认为总离差平方和QT分为两个部分,一部分是f(Xi)组间离差平方和QX,另一部分就是组内离差平方和QE。因此把QX定义为式(12)也是合理的,计算整理后得到的表达式更是有直观的意义。

(11)QT=i=1kj=1n(YijY¯)2;QE=i=1kj=1n(YijY¯i)2

(12)QX=QTQE=i=1kni(Y¯iY¯)2

  然后很容易算到它们的期望值式(13),从中不难发现,E[QX]仍然会含有误差方差的信息,因此必须结合误差信息来度量X的影响。为度量影响大小,将假设定为a1==ak=0,假设成立时称XY影响显著,否则是影响不显著。当假设成立时,三个离差平方和中都只剩下σ2项,预感枢轴变量是它们之间相除得到的F统计量。

(13)E[QT]=(n1)σ2+i=1knkai2;E[QE]=(nr)σ2

  为寻找枢轴变量,首先假定e是正态分布,然后将式(10)右带入式(11)(12),由于ai=0,得到的结果其实就是把Y换成e。考察这些关于eij的正定二次型,不难得到QT,QX,QE的秩分别为n1,k1,nk,由柯赫伦分解定理可知,QXσ2,QEσ2分别是自由度为nk,k1的卡方分布,且它们互相独立。

  它们正好可以用来生成F型枢轴变量(式(14)),另外由于假设不成立时,有E[QX]k1>E[QE]nk,故检验条件选择F<C。需要强调,检验的结果只是X相对随机值e影响Y大小的一个度量,如果直观上看Y¯i的差别十分明显,则说明误差的影响特别大,需要增加实验次数或先提取主要因素。如果假设不成立,还可以继续对aiaj做区间估计,请自行讨论其枢轴变量。

(14)F=(nk)QX(k1)QEFk1,nk

2.2 两因素完全实验

  当Y有多个影响因素,并且各因素互相独立时,如果针对每个因素进行方差分析,往往需要较多的样本数。这时可以将多个因素合并进一个模型,以两个因素A,B为例,建立式(15)左的模型。假设Am个采样点AiBn个采样点Bj,则总共只需要做mn次试验(式(15)右)。以下记Y¯为所有Yij的平均值,Y¯jY1j,,Ymj的平均值,Y¯iYi1,,Yin的平均值。

(15)Y=A+B+e;Yij=ai+bj+eij

  很快你会发现,想要对ai,bj进行估值,信息量是不够的。上面的几个平均值的期望值如式(16),其中并不能得到具体的ai,bj。但方差分析其实只关注数据的分散性,因此只要有ai,bj的相对关系即可。为此,记μ=a¯+b¯,然后把ai,bj中心化,这样就有了式(17)中更有用的结论。

(16)E[Y¯]=a¯+b¯;E[Y¯j]=a¯+bj;E[Y¯i]=ai+b¯

(17)E[Y¯]=μ;E[Y¯j]=μ+βj;E[Y¯i]=αi+μ

  αi,βj的方差和与ai,bj的方差和是一样的,类似式(12)可以到式(18)中方差和的估计。然后按照相同的理念,把式(19)作为误差方差和的估计(不用追究其直观意义)。容易知道QT,QA,QB的自由度分别是mn1,m1,n1,则QE的自由度是(m1)(n1)。接下来可以得到两个类似式(14)的枢轴变量。

(18)QA=ni=1m(Y¯iY¯)2;QB=mj=1n(Y¯jY¯)2

(19)QE=QTQAQB=i=1mj=1n(YijY¯iY¯j+Y¯)2

  二元方差分析的模型其实可以直接用在单元素的区组设计上,即假定检验的目标是A,在每个情况Ai下进行n次试验。这mn次试验原本可以随机安排,但如果mn个试验环境存在可知的差异,在设计试验时就要使得每种情况Ai尽量出现在不同的环境中。以最理想的场景为例,试验环境正好可以分为n种,而每种内部的m个小环境是相同的,这时环境因素就可以看做是因素B

  区组设计的目的是为了排除随机环境对试验的影响,当环境差距明显时,直接用两因素模型可以得到更准确的检验。但要注意,如果环境差异并不明显,组内离差平方和会被低估,再加上自由度的损失,平均离差平方和更是被严重低估。因此如果检测出环境影响甚微,应当直接采用单因素的方差分析。


全篇完

posted on   卞爱华  阅读(2180)  评论(0编辑  收藏  举报

编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架

导航

点击右上角即可分享
微信分享提示