数学 - 回归分析 - 第 5 章 自变量选择与逐步回归 - 5.2 所有子集回归
5.2 所有子集回归
5.2.1 所有子集的数目
设在一个实际问题的回归建模中,有 个可供选择的变量 ,,,,由于每个自变量都有入选和不入选两种情况,因此 关于这些自变量的所有可能的回归方程就有 个,这里减 是要求回归模型中至少包含一个自变量。如果把回归模型中只包含常数项的情况也算在内,那么所有可能的回归方程就有 个。
从另一个角度看,选模型包含的自变量数量 有从 到 共 种不同的情况,而对选模型中恰包含 个自变量的情况,从全部 个自变量中选出 个的方法共有组合数 个,因而所有选模型的数量为:
5.2.2 关于自变量选择的几个准则
在这些回归子集中如何选择一个最优回归子集?衡量最优子集的标准又是什么?
在第 章,我们从数据与模型拟合优劣的角度出发,认为残差平方和 最小的回归方程就是最好的,还用复相关系数 来衡量回归拟合的好坏。然而,通过下面的讨论我们会看到上述两种方法的不足。
我们把选模型式 的残差平方和记为 ,当再增加一个新的自变量 时,相应的残差平方和记为 。根据最小二乘估计的原理,增加自变量时残差平方和将减少,减少自变量时残差平方和将增加。因此有
又记它们的复决定系数分别为:,。由于 是自变量的离差平方和,与自变量无关,因而
因此当自变量子集扩大时,残差平方和随之减少,而复决定系数 随之增大。因此,如果按残差平方和越小越好的原则来选择自变量子集,或者按复决定系数越大越好的准则,则毫无疑问选的变量越多越好。这样由于变量的多重共线性,给变量的回归系数估计值带来不稳定性,加上变量的测量误差积累和参数数量增加,将使估计值的误差增大。因此残差平方和、复相关系数或样本决定系数都不能作为选择变量的准则。
下面从不同的角度给出几个常用的准则。
(1) 自由度调整复决定系数达到最大
前面我们已经看到,当给模型增加自变量时,复决定系数也随之逐步增大,然而复决定系数增大的代价是残差自由度的减少(残差自由度等于样本个数与自变量个数之差)。自由度小意味着估计和预测的可靠性低。这表明当一个回归方程涉及的自变量很多时,回归模型的拟合从表面上看是良好的,而区间预测和区间估计的幅度却变大,以致失去实际意义。
为了克服样本决定系数的这一缺点,我们设法对 进行修正,使得只有加入有意义的变量时,经过修正的样本决定系数才会增加,这就是所谓的自由度调整复决定系数。
设 为调整的复决定系数, 为样本量, 为自变量的个数,则有
显然有 , 随着自变量的增加不一定增大,由式 可以看出,尽管 随着自变量的增加而减少,但由于其前面的系数 起折扣作用,才使 随着自变量的增加并不一定增大。当所增加的自变量对回归的贡献很小时, 反而可能减少。
在一个实际问题的回归建模中,自由度调整复决定系数 越大,所对应的回归方程越好。从拟合优度的角度追求最优,则所有回归子集中 最大者对应的回归方程就是最优方程。
从另外一个角度考虑回归的拟合效果,回归误差项方差 的无偏估计为:
此无偏估计式中也加入了惩罚因子 , 实际上就是用自由度 做平均的平均残差平方和。当自变量个数从 开始增加时, 逐渐减小,作为除数的惩罚因子 也随之减小。
一般来说,当自变量个数从 开始增加时, 先下降,而后稳定下来,当自变量个数增加到一定数量后, 又开始增加。这是因为刚开始时,随着自变量个数的增加, 能够快速减小,虽然作为除数的惩罚因子 也随之减小,但由于 减小的速度更快,因而 是趋于减小的。当自变量数目增加到一定程度时,重要的自变量基本都选上了,这时再增加自变量, 减小的幅度不大,以至于抵消不了除数 的减小,最终又导致了 的增加。
上述分析可知,用平均残差平方和 作为自变量选元准则是合理的,那么它和调整的复决定系数 准则有什么关系呢?实际上,这两个准则是等价的,容易证明以下关系成立:
由于 是与回归无关的固定值,因此 与 是等价的。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现