数学 - 回归分析 - 第 5 章自变量选择与逐步回归 - 5.2 所有子集回归 - Black_x

数学 - 回归分析 - 第 5 章自变量选择与逐步回归 - 5.2 所有子集回归

5.2 所有子集回归

5.2.1 所有子集的数目

设在一个实际问题的回归建模中，有 \(m\) 个可供选择的变量 \(x_1\)，\(x_2\)，\(\cdots\)，\(x_m\)，由于每个自变量都有入选和不入选两种情况，因此 \(y\) 关于这些自变量的所有可能的回归方程就有 \(2^m - 1\) 个，这里减 \(1\) 是要求回归模型中至少包含一个自变量。如果把回归模型中只包含常数项的情况也算在内，那么所有可能的回归方程就有 \(2^m\) 个。

从另一个角度看，选模型包含的自变量数量 \(p\) 有从 \(0\) 到 \(m\) 共 \(m+1\) 种不同的情况，而对选模型中恰包含 \(p\) 个自变量的情况，从全部 \(m\) 个自变量中选出 \(p\) 个的方法共有组合数 \(\binom{m}{p}\) 个，因而所有选模型的数量为：

\[\binom{m}{0} + \binom{m}{1} + \cdots + \binom{m}{m} = 2^m \]

5.2.2 关于自变量选择的几个准则

在这些回归子集中如何选择一个最优回归子集？衡量最优子集的标准又是什么？

在第 \(3\) 章，我们从数据与模型拟合优劣的角度出发，认为残差平方和 \(\text{SSE}\) 最小的回归方程就是最好的，还用复相关系数 \(R\) 来衡量回归拟合的好坏。然而，通过下面的讨论我们会看到上述两种方法的不足。

我们把选模型式 \((5.1.2)\) 的残差平方和记为 \(\text{SSE}_p\)，当再增加一个新的自变量 \(x_{p+1}\) 时，相应的残差平方和记为 \(\text{SSE}_{p+1}\)。根据最小二乘估计的原理，增加自变量时残差平方和将减少，减少自变量时残差平方和将增加。因此有

\[\text{SSE}_{p+1} \leqslant \text{SSE}_p \]

又记它们的复决定系数分别为：\(R_{p+1}^2 = 1 - \text{SSE}_{p+1}/\text{SST}\)，\(R_{p}^2 = 1 - \text{SSE}_{p}/\text{SST}\)。由于 \(\text{SST}\) 是自变量的离差平方和，与自变量无关，因而

\[R_{p+1}^2 \geqslant R_p^2 \]

因此当自变量子集扩大时，残差平方和随之减少，而复决定系数 \(R^2\) 随之增大。因此，如果按残差平方和越小越好的原则来选择自变量子集，或者按复决定系数越大越好的准则，则毫无疑问选的变量越多越好。这样由于变量的多重共线性，给变量的回归系数估计值带来不稳定性，加上变量的测量误差积累和参数数量增加，将使估计值的误差增大。因此残差平方和、复相关系数或样本决定系数都不能作为选择变量的准则。

下面从不同的角度给出几个常用的准则。

(1) 自由度调整复决定系数达到最大

前面我们已经看到，当给模型增加自变量时，复决定系数也随之逐步增大，然而复决定系数增大的代价是残差自由度的减少（残差自由度等于样本个数与自变量个数之差）。自由度小意味着估计和预测的可靠性低。这表明当一个回归方程涉及的自变量很多时，回归模型的拟合从表面上看是良好的，而区间预测和区间估计的幅度却变大，以致失去实际意义。

为了克服样本决定系数的这一缺点，我们设法对 \(R^2\) 进行修正，使得只有加入有意义的变量时，经过修正的样本决定系数才会增加，这就是所谓的自由度调整复决定系数。

设 \(R_a^2\) 为调整的复决定系数，\(n\) 为样本量，\(p\) 为自变量的个数，则有

\[R_a^2 = 1 - \frac{n - 1}{n - p - 1}(1-R^2) \tag{5.2.1} \]

显然有 \(R_a^2 \leqslant R^2\)，\(R_a^2\) 随着自变量的增加不一定增大，由式 \((5.2.1)\) 可以看出，尽管 \(1-R^2\) 随着自变量的增加而减少，但由于其前面的系数 \((n-1)/(n-p-1)\) 起折扣作用，才使 \(R_a^2\) 随着自变量的增加并不一定增大。当所增加的自变量对回归的贡献很小时，\(R_a^2\) 反而可能减少。

在一个实际问题的回归建模中，自由度调整复决定系数 \(R_a^2\) 越大，所对应的回归方程越好。从拟合优度的角度追求最优，则所有回归子集中 \(R_a^2\) 最大者对应的回归方程就是最优方程。

从另外一个角度考虑回归的拟合效果，回归误差项方差 \(\sigma^2\) 的无偏估计为：

\[\hat{\sigma}^2 = \frac{1}{n-p-1} \text{SSE} \]

此无偏估计式中也加入了惩罚因子 \(n-p-1\)，\(\hat{\sigma}^2\) 实际上就是用自由度 \(n-p-1\) 做平均的平均残差平方和。当自变量个数从 \(0\) 开始增加时，\(\text{SSE}\) 逐渐减小，作为除数的惩罚因子 \(n-p-1\) 也随之减小。

一般来说，当自变量个数从 \(0\) 开始增加时，\(\hat{\sigma}^2\) 先下降，而后稳定下来，当自变量个数增加到一定数量后，\(\hat{\sigma}^2\) 又开始增加。这是因为刚开始时，随着自变量个数的增加，\(\text{SSE}\) 能够快速减小，虽然作为除数的惩罚因子 \(n-p-1\) 也随之减小，但由于 \(\text{SSE}\) 减小的速度更快，因而 \(\hat{\sigma}^2\) 是趋于减小的。当自变量数目增加到一定程度时，重要的自变量基本都选上了，这时再增加自变量，\(\text{SSE}\) 减小的幅度不大，以至于抵消不了除数 \(n-p-1\) 的减小，最终又导致了 \(\hat{\sigma}^2\) 的增加。

上述分析可知，用平均残差平方和 \(\hat{\sigma}^2\) 作为自变量选元准则是合理的，那么它和调整的复决定系数 \(R_a^2\) 准则有什么关系呢？实际上，这两个准则是等价的，容易证明以下关系成立：

\[R_a^2 = 1 - \frac{n-1}{\text{SST}} \hat{\sigma}^2 \tag{5.2.2} \]

由于 \(\text{SST}\) 是与回归无关的固定值，因此 \(R_a^2\) 与 \(\hat{\sigma}^2\) 是等价的。

(2) AIC 与 BIC 准则

posted on 2022-05-05 15:30 Black_x 阅读(955) 评论(0) 收藏举报

刷新页面返回顶部

Black_x