6.2 多重共线性对回归模型的影响
6.2.1 多重共线性对回归模型的影响
设下述回归模型存在完全多重共线性
y=β0+β1x1+β2x2+⋯+βpxp+ε
即对设计矩阵 X 的列向量存在不全为零的一组数 c0,c1,⋯,cp 使得
c0+c1xi1+c2xi2+⋯+cpxip=0,i=1,2,⋯,n
设计矩阵的秩 rank(X)<p+1,此时 |X′X|=0,正规方程组 X′X^β=X′y 的解不唯一,(X′X)−1 不存在,回归参数的最小二乘估计表达式 ^β=(X′X)−1X′y 不成立。
在实际问题中,经常遇到的是近似共线性的情形,即存在不全为零的一组数 c0,c1,⋯,cp 使得
c0+c1xi1+c2xi2+⋯+cpxip≈0,i=1,2,⋯,n
此时设计矩阵 X 的秩 rank(X)=p+1 虽然成立,但是 |X′X|≈0,(X′X)−1 的对角线元素很大,^β 的方差阵 D(^β)=σ2(X′X)−1 的对角线元素很大,而 D(^β) 的对角线元素即 var(^β0),var(^β1),⋯,var(^βp),因而 β0,β1,⋯,βp 的估计精度很低。这样,虽然用普通最小二乘估计能得到 β 的无偏估计,但估计量 ^β 的方差很大,不能正确判断解释变量对被解释变量的影响程度,甚至导致估计量的实际意义无法解释。
6.2.2 二元回归的例子
以二元回归为简单例子,我们可以看到当自变量间的相关性从小到大增加时,估计量的方差增大得很快。
做 y 对两个自变量 x1,x2 的线性回归,假定 y 与 x1,x2 都已经中心化,此时回归常数项为零,回归方程为:
^y=^β1x1+^β2x2
记 L11=∑ni=1x2i1,L12=∑ni=1xi1xi2,L22=∑ni=1x2i2,则 x1 与 x2 之间的相关系数为:
r12=L12√L11L22
由于
X′X=[L11L12L12L22]
我们可以计算 ^β=(^β1,^β2) 的协方差阵为:
cov(^β)=σ2(X′X)−1=σ21|X′X|[L22−L12−L12L11]=σ21L11L22(1−r212)[L22−L12−L12L11]
由此可得
var(^β1)=σ2(1−r212)L11,var(^β1)=σ2(1−r212)L22(6.2.1)
可知,随着自变量 x1 与 x2 的相关性增强,^β1 和 ^β2 的方差将逐渐增大。我们可认为当 x1 与 x2 完全相关(r=1)时,方差将变为无穷大。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现