数学 - 回归分析 - 第 5 章 自变量选择与逐步回归 - 5.1 自变量选择对估计和预测的影响

5.1 自变量选择对估计和预测的影响

回归自变量的选择无疑是建立回归模型的一个极为重要的问题。在建立一个实际问题的回归模型时,首先碰到的问题便是如何确定回归自变量,一般情况下,我们大多是根据所研究问题的目的,结合相关理论罗列出对因变量可能有影响的一些因素。

如果遗漏了某些重要的变量,回归方程的效果肯定肯定不好;如果担心遗漏了重要的变量而考虑过多的自变量,在这些变量中,某些自变量对问题的研究可能并不重要,有些自变量数据的质量可能很差,有些自变量可能和其他自变量有很大程度的重叠。结果,不仅计算量增大很多,而且得到的回归方程稳定性很差,直接影响到回归方程的应用。

5.1.1 全模型和选模型

设我们研究的某一实际问题所涉及的对因变量有影响的因素共有 m 个,由因变量 ym 个自变量 x1x2xm 构成的回归模型为:

(5.1.1)y=β0+β1x1+β2x2++βmxm+ε

因为模型式 (5.1.1) 是因变量 y 与所有自变量 x1xm 的回归模型,故称式 (5.1.1)全回归模型

如果从所有可供选择的 m 个变量中挑选出 p 个,记为 x1x2xp,由所选的 p 个自变量组成的回归模型为:

(5.1.2)y=β0p+β1px1++βppxp+εp

相对全模型而言,我们称模型 (5.1.2)选回归模型。选模型式 (5.1.2)p 个自变量 x1x2xp 并不一定是全体 m 个自变量 x1x2xm 中的前 p 个,实际上是在全体 m 个自变量 x1x2xm 中按某种规则挑选出的 p 个,不过为了方便,我们不妨认为x1x2xp 就是 m 个自变量 x1x2xm 中的前 p 个。

为了方便,把模型式 (5.1.1) 的参数向量 βσ2 的估计记为:

(5.1.3)β^m=(XmXm)1Xmy

(5.1.4)σ^m2=1nm1SSEm

把模型式 (5.2) 的参数向量 βσ2 的估计记为:

(5.1.5)β^p=(XpXp)1Xpy

(5.1.6)σ^p2=1np1SSEp

5.1.2 自变量选择对预测的影响

假设全模型式 (5.1.1) 与选模型式 (5.1.2) 不同,即要求 p<mβp+1xp+1+betamxm 不恒为零。在此条件下,当全模型式 (5.1.1) 正确而误用了选模型式 (5.1.2) 时。有如下性质:

定理 5.1.1

  • xjxp+1xm 的相关系数不全为零时,选模型回归系数的最小二乘估计是全模型相关参数的有偏估计,即 E(β^jp)=βjpβj(j=1,2,,p)

  • 选模型的预测是有偏的。给定新自变量值,x0m=(x01,x02,,x0m),因变量新值为 y0=β0+β1x01+

posted on   Black_x  阅读(869)  评论(0编辑  收藏  举报

编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示