数学 - 回归分析 - 第 5 章 自变量选择与逐步回归 - 5.1 自变量选择对估计和预测的影响
5.1 自变量选择对估计和预测的影响
回归自变量的选择无疑是建立回归模型的一个极为重要的问题。在建立一个实际问题的回归模型时,首先碰到的问题便是如何确定回归自变量,一般情况下,我们大多是根据所研究问题的目的,结合相关理论罗列出对因变量可能有影响的一些因素。
如果遗漏了某些重要的变量,回归方程的效果肯定肯定不好;如果担心遗漏了重要的变量而考虑过多的自变量,在这些变量中,某些自变量对问题的研究可能并不重要,有些自变量数据的质量可能很差,有些自变量可能和其他自变量有很大程度的重叠。结果,不仅计算量增大很多,而且得到的回归方程稳定性很差,直接影响到回归方程的应用。
5.1.1 全模型和选模型
设我们研究的某一实际问题所涉及的对因变量有影响的因素共有 个,由因变量 和 个自变量 ,,, 构成的回归模型为:
因为模型式 是因变量 与所有自变量 ,, 的回归模型,故称式 为全回归模型。
如果从所有可供选择的 个变量中挑选出 个,记为 ,,,,由所选的 个自变量组成的回归模型为:
相对全模型而言,我们称模型 为选回归模型。选模型式 的 个自变量 ,,, 并不一定是全体 个自变量 ,,, 中的前 个,实际上是在全体 个自变量 ,,, 中按某种规则挑选出的 个,不过为了方便,我们不妨认为,,, 就是 个自变量 ,,, 中的前 个。
为了方便,把模型式 的参数向量 和 的估计记为:
把模型式 的参数向量 和 的估计记为:
5.1.2 自变量选择对预测的影响
假设全模型式 与选模型式 不同,即要求 , 不恒为零。在此条件下,当全模型式 正确而误用了选模型式 时。有如下性质:
定理 5.1.1
在 与 ,, 的相关系数不全为零时,选模型回归系数的最小二乘估计是全模型相关参数的有偏估计,即 。
选模型的预测是有偏的。给定新自变量值,,因变量新值为
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现