数学 - 回归分析 - 第 3 章 多元线性回归 - 3.4 回归方程的显著性检验

3.4 回归方程的显著性检验

我们事先并不能断定随机变量 y 与变量 x1x2xp 之间确有线性关系,在进行回归参数的估计之前,用多元线性回归方程去拟合这种关系,只是根据一些定性分析所做的一种线性假设。在求出线性回归方程后,还需对回归方程进行显著性检验。

下面介绍两种统计检验方法:一种是回归方程显著性的 F 检验;另一种是回归系数显著性的 t 检验。同时介绍衡量回归拟合程度的拟合优度检验。

3.4.1 F 检验

对多元线性回归方程的显著性检验要看自变量 x1x2xp 从整体上对随机变量 y 是否有明显的影响。为此提出原假设

(3.4.1)H0:β1=β2==βp=0

如果 H0 被接受,则表明随机变量 y 与自变量 x1x2xp 之间的关系由线性回归模型表示不合适。

类似于一元线性回归,为了建立对原假设进行检验的 F 统计量,仍然利用总离差平方和的分解式,即

i=1n(yiy¯)2=i=1n(y^iy¯)2+i=1n(yiy^i)2

简写为:

(3.4.2)SST=SSR+SSE

在多元线性回归的场合,我们对上式做进一步解释。

定理 3.4.1

  • SSR=y(H1n11)y

  • SSE=y(IH)y

  • SST=y(I1n11)y

证明:考虑 SSE,有

SSE=ee=[(IH)y][(IH)y]=y(IH)y

考虑 SSR,有

SSR=i=1n(y^iy¯)2=(y^y¯1n)(y^y¯1n)=(Hy1n1n1ny)(Hy1n1n1ny)=y(H1n1n1n)y

证毕。

引理 3.4.1

yN(μ,σ2In)U=yAyV=yBy,其中 ABn×n 的矩阵。

  • A2=A,则 U/σ2χr,λ2,其中 r=rank(A)λ=μAμ/σ2

  • AB=0,则 UV 独立。

证明略。

利用上述引理可以得到下述重要的定理。

定理 3.4.2

随机向量 yN(Xβ,σ2In),则有

  • 如果 β1=β2==βp=0,则 SSR/σ2χ2(p)

  • SSE/σ2χ2(np1)

  • SSRSSE 独立。

证明: 证明第一点。由于 β1=β2==βp=0,因此有

E(yi)=β0,E(y)=β01n

A=H1n1n1n,可以验证

A2=(H1n1n1n)2=(H2H1n1n1n1n1n1nH+1n1n1n)=A

因此可知 A 是一个对称幂等矩阵,由引理 (3.4.1) 得到自由度

r=rank(A)=tr(A)=p+11=p

得到非中心参数

λ=1σ2(β01n)(H1n1n1n)(β01n)=0

证明第二点。由于

SSE=y(IH)y

因此令 B=IH,可知 B 是一个对称幂等阵,由引理 (3.4.1) 得到自由度

r=rank(B)=rank(IH)=tr(IH)=np1

得到非中心参数

λ=1σ2(Xβ)(IH)(Xβ)=0

证毕。

构造 F 检验统计量如下:

(3.4.3)F=SSR/pSSE/(np1)

对构造的 F 检验统计量,我们有

定理 3.4.3

在正态假设下,当原假设 H0:β1=β2==βp=0 成立时,F 检验统计量服从自由度为 (p,np1)F 分布。

证明:由定理 3.4.2 可知,在正态假设下,原假设 H0 成立时有

SSR/σ2χ2(p),SSE/σ2χ2(np1)

F 分布定义知

FF(p,np1)

证毕。

我们可以利用 F 统计量对回归方程的总体显著性进行检验。对于给定的数据,计算出 SSRSSE,进而得到 F 值。我们可以得到类似一元线性回归场合的方差分析表。

FPpSSRSSR/pSSR/pSSE/(np1)P(F>F)=Pnp1SSESSE/(np1)n1SST

给定显著性水平 α,得到临界值 Fα(p,np1)

F>Fα(p,np1),拒绝原假设 H0,认为在显著性水平 α 下,yx1x2xp 存在显著的线性关系。

FFα(p,np1),接受原假设 H0,认为在显著性水平 α 下,yx1x2xp 不存在显著的线性关系。

与一元线性回归一样,也可以根据 P 值做检验,当 P<α 时,拒绝原假设 H0;当 Pα 时,接受原假设 H0

3.4.2 t 检验

在多元线性回归中,回归方程显著并不意味着每个自变量对 y 的影响都显著,我们想从回归方程中剔除那些次要的、可有可无的变量,重新建立更为简单的回归方程(降低模型复杂度,防止过拟合),所以需要对每个自变量进行显著性检验。

显然,如果某个自变量 xjy 的作用不显著,那么在回归模型中,它的系数 βj 就取值为 0。因此检验变量 xj 是否显著,等价于检验假设

(3.4.4)H0j:βj=0,j=1,2,,p

如果接受原假设 H0j,则 xj 不显著;如果拒绝原假设 H0j,则 xj 是显著的。

3.3.6 的正态性得到

β^N(β,σ2(XX)1)

(XX)1=(cij),于是有

E(β^j)=βj,var(β^j)=cjjσ2

(3.4.5)β^jN(βj,cjjσ2),j=0,1,,p

由此构成 t 统计量

(3.4.6)tj=β^jcjjσ^

其中 σ^ 是回归标准差:

(3.4.7)σ^=1np1i=1nei2=1np1i=1n(yiy^i)2

对构造的 t 检验统计量,我们有

定理 3.4.4

在正态假设下,当原假设 H0j:βj=0 成立时,tj 检验统计量服从自由度为 np1t 分布。

证明:在正态假设下,当原假设 H0j:βj=0 成立时,有

U=β^jcjjσN(0,1)

由定理 3.4.2 可得

V=(np1)σ^2σ2χ2(np1)

则有

tj=β^jcjjσ^=β^jcjjσσσ^=Uσ^σ=UV/(np1)t(np1)

证毕。

给定显著性水平 α,查出双侧检验的临界值 tα/2

|tj|tα/2,拒绝原假设 H0j,认为 βj 显著不为 0,自变量 xj 对因变量 y 的线性效果显著。

|tj|<tα/2,接受原假设 H0j,认为 βj 显著为 0,自变量 xj 对因变量 y 的线性效果不显著。

在教材上给出一个关于城镇消费性支出的例子,由 F 检验可以知道回归方程整体是显著的,即 9 个自变量作为一个整体对因变量 y 有十分显著的影响,但软件计算发现,关于 βjt 统计量 tj,在显著性水平 α=0.05 时只有 x1x2x3x5 通过了显著性检验。这个例子说明,尽管回归方程高度显著,但也会出现某些自变量 xjy 无显著影响的情况。

多元回归中,并不是包含在回归方程中的自变量越多越好(之后有详细讨论)。在此介绍一种简单的剔除多余变量的方法——后退法

当有多个自变量对因变量 y 无显著影响时,由于自变量之间的交互作用,不能一次剔除掉所有不显著的变量。原则上每次只剔除一个变量,且先剔除其中 |t| 值最小(或 |P| 值最大)的一个变量,然后再对求得的新的回归方程进行检验,有不显著的变量再从中选出最不显著的进行剔除,直到保留的变量都对 y 有显著影响为止。

使用后退法时,由于各个自变量的单位不同,注意标准化数据

3.4.3 t 检验与 F 检验的关系:偏 F 检验

在一元线性回归中,回归系数显著性的 t 检验与回归方程显著性的 F 检验是等价的,但在多元线性回归中,这两种检验并不等价。F 检验显著,只能说明 y 对自变量 x1x2xp 整体的线性回归效果是显著的,不能说明 y 对每个自变量 xi 的回归效果都显著。

从另一个角度考虑自变量 xj 的显著性。

y 对自变量 x1x2xp 线性回归的残差平方和为 SSE,回归平方和为 SSR。在剔除掉 xj 后,用 y 对其余的 p1 个自变量做回归,记所得的残差平方和为 SSE(j),回归平方和为 SSR(j),则自变量 xj 对回归的贡献为

(3.4.8)ΔSSR(j)=SSRSSR(j)

称上式为 xj偏回归平方和。由此构造偏 F 检验统计量

(3.4.9)Fj=ΔSSR(j)/1SSE/(np1)

定理 3.4.5

在正态假设下,当原假设 H0j:βj=0 成立时,偏 F 检验统计量 Fj 服从自由度为 (1,np1)F 分布。

证明:由定理 3.4.1,我们有

ΔSSR(j)=SSRSSR(j)=y(H1n11)yy(H1n11)y=y(HH)y=y([X1xjX2]([X1xjX2][X1xjX2])1[X1xjX2]y=β^j2/cjj

在正态假设下,当原假设 H0 成立时,由式 (3.4.5)

ΔSSR(j)σ2=β^j2cjjσ2=(β^jcjjσ)2χ2(1)

证毕。

可以证明上式给出的偏 F 检验与 t 检验是一致的,具体有下述定理

定理 3.4.6

对式 (3.4.9) 的偏 F 检验统计量和式 (3.4.6)t 检验统计量有关系式

Fj=tj2

证明:

(3.4.10)tj2=β^j2/cjjσ^2=SSRSSR(j)SSE/(np1)=ΔSSR(j)/1SSE/(np1)=Fj

证毕。
当从回归方程中剔除变元时,回归平方和减少,残差平方和增加。反之,往回归方程中引入变元,回归平方和增加,残差平方和减少,且两者的增减量相等。具体地,根据平方和分解式可得下式关系

ΔSSR(j)=ΔSSE(j)=SSE(j)SSE

3.4.4 拟合优度

拟合优度用于检验回归方程对样本观测值的拟合程度。在一元线性回归中,定义了样本决定系数 r2=SSR/SST,在多元线性回归中,同样可以定义样本决定系数为:

(3.4.11)R2=SSRSST=1SSESST

样本决定系数 R2 的取值在 [0,1] 区间内,R2 越接近 1,表明回归拟合的效果越好;R2 越接近 0,表明回归拟合的效果越差。与 F 检验相比,R2 可以更清楚直观地反映回归拟合的效果,但是并不能作为严格的显著性检验。

(3.4.14)R=R2=SSRSST

称上式给出的 Ry 关于 x1x2xp 的样本复相关系数。在两个变量的简单相关系数中,相关系数有正负之分,而复相关系数表示的是因变量 y 与全体自变量之间的线性关系,它的符号不能由某一个自变量的回归系数的符号确定,因而都取正号。。。

posted on   Black_x  阅读(4888)  评论(1编辑  收藏  举报

编辑推荐:
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示