3.6 多元线性回归的区间估计
3.6.1 回归系数的置信区间
当我们有了参数向量 β 的估计量 ^β 时,需构造 βj 的一个区间——以 ^βj 为中心的区间,该区间以一定概率包含 βj。由式 (3.4.5) 知 ^βj 的分布
^βj∼N(βj,cjjσ2),j=0,1,⋯,p
由此构造出一个枢轴变量
tj=^βj−βj√cjj^σ(3.6.1)
由定理可知 tj 的分布与 t 检验统计量式 (3.4.6) 一样,因此有
tj∼t(n−p−1)
给定显著性水平 α,有
P(∣∣
∣∣^βj−βj√cjj^σ∣∣
∣∣<tα/2(n−p−1))=1−α
得到 βj 的置信度为 1−α 的置信区间为
(^βj−tα/2√cjj^σ,^βj+tα/2√cjj^σ)(3.6.2)
3.6.2 预测值的置信区间
预测和控制是回归模型最重要的应用,控制作为预测的反问题,此处只介绍预测。
与一元线性回归场合类似,预测分为单值预测和区间预测。考虑多元线性理论回归方程
y=β0+β1x1+⋯+βpxp+ε(3.6.3)
根据已知的介绍,用最小二乘估计得到回归参数估计值。考虑多元线性经验回归方程
^y=^β0+^β1x1+⋯+^βpxp=x′^β(3.6.4)
单值预测较为简单,当给定 x0 时,我们用点估计 ^y0=x′0^β 作为因变量新值的预测值,显然该估计是无偏估计。
下面重点考虑区间预测。
(1) 因变量新值的区间预测
将 y0−^y0 视为整体,容易知该随机变量是两个正态变量相减,因此整体服从正态分布。先求期望
E(y0−^y0)=0
再考虑方差,预测值 ^y0 是先前独立观测到的随机变量 y1,y2,⋯,yn 的线性组合,现在因变量新值 y0 与之前的观测值 yi 是独立的,所以 y0 与 ^y0 是独立的。此时有
D(y0−^y0)=D(y0)+D(^y0)=σ2+x′0σ2(X′X)−1x0=σ2(1+x′0(X′X)−1x0)
由此构造出一个枢轴变量
t=y0−^y0√σ2(1+x′0(X′X)−1x0)∼t(n−p−1)
给定显著性水平 α,得到置信度为 1−α 的置信区间为
^y0−tα/2(n−p−1)√σ2(1+x′0(X′X)−1x0)<y0<^y0+tα/2(n−p−1)√σ2(1+x′0(X′X)−1x0)
(2) 因变量新值的平均值的区间预测
^y0=x′0^β=x′0(X′X)−1X′y
由于
y∼N(Xβ,σ2In)
得到
y0∼N(x′0β,σ2)
得到
E(^y0)=x′0(X′X)−1X′E(y)=x′0(X′X)−1X′Xβ=x′0β
D(^y0)=x′0(X′X)−1X′D(y)(x′0(X′X)−1X′)′=σ2x′0(X′X)−1X′X(X′X)−1x0=σ2x′0(X′X)−1x0
故
^y0∼N(x′0β,σ2x′0(X′X)−1x0)
由此构造出一个枢轴变量
t=^y0−x′0β√^σ2x′0(X′X)−1x0=^y0−E(y0)√^σ2x′0(X′X)−1x0∼t(n−p−1)
给定显著性水平 α,得到置信度为 1−α 的置信区间为
^y0−tα/2(n−p−1)√^σ2x′0(X′X)−1x0<E(y|x0)<^y0+tα/2(n−p−1)√^σ2x′0(X′X)−1x0
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现