数学 - 回归分析 - 第 5 章自变量选择与逐步回归 - 5.1 自变量选择对估计和预测的影响 - Black_x

数学 - 回归分析 - 第 5 章自变量选择与逐步回归 - 5.1 自变量选择对估计和预测的影响

5.1 自变量选择对估计和预测的影响

回归自变量的选择无疑是建立回归模型的一个极为重要的问题。在建立一个实际问题的回归模型时，首先碰到的问题便是如何确定回归自变量，一般情况下，我们大多是根据所研究问题的目的，结合相关理论罗列出对因变量可能有影响的一些因素。

如果遗漏了某些重要的变量，回归方程的效果肯定肯定不好；如果担心遗漏了重要的变量而考虑过多的自变量，在这些变量中，某些自变量对问题的研究可能并不重要，有些自变量数据的质量可能很差，有些自变量可能和其他自变量有很大程度的重叠。结果，不仅计算量增大很多，而且得到的回归方程稳定性很差，直接影响到回归方程的应用。

5.1.1 全模型和选模型

设我们研究的某一实际问题所涉及的对因变量有影响的因素共有 $m$ 个，由因变量 $y$ 和 $m$ 个自变量 $x_1$，$x_2$，$\cdots$，$x_m$ 构成的回归模型为：

\[y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_m x_m + \varepsilon \tag{5.1.1} \]

因为模型式 $(5.1.1)$ 是因变量 $y$ 与所有自变量 $x_1$，$\cdots$，$x_m$ 的回归模型，故称式 $(5.1.1)$ 为全回归模型。

如果从所有可供选择的 $m$ 个变量中挑选出 $p$ 个，记为 $x_1$，$x_2$，$\cdots$，$x_p$，由所选的 $p$ 个自变量组成的回归模型为：

\[y = \beta_{0p} + \beta_{1p} x_1 + \cdots + \beta_{pp} x_p + \varepsilon_p \tag{5.1.2} \]

相对全模型而言，我们称模型 $(5.1.2)$ 为选回归模型。选模型式 $(5.1.2)$ 的 $p$ 个自变量 $x_1$，$x_2$，$\cdots$，$x_p$ 并不一定是全体 $m$ 个自变量 $x_1$，$x_2$，$\cdots$，$x_m$ 中的前 $p$ 个，实际上是在全体 $m$ 个自变量 $x_1$，$x_2$，$\cdots$，$x_m$ 中按某种规则挑选出的 $p$ 个，不过为了方便，我们不妨认为$x_1$，$x_2$，$\cdots$，$x_p$ 就是 $m$ 个自变量 $x_1$，$x_2$，$\cdots$，$x_m$ 中的前 $p$ 个。

为了方便，把模型式 $(5.1.1)$ 的参数向量 $\bm{\beta}$ 和 $\sigma^2$ 的估计记为：

\[\hat{\bm{\beta}}_m = (X_m' X_m)^{-1} X_m' \bm{y} \tag{5.1.3} \]

\[\hat{\sigma}_m^2 = \frac{1}{n-m-1} \text{SSE}_m \tag{5.1.4} \]

把模型式 $(5.2)$ 的参数向量 $\bm{\beta}$ 和 $\sigma^2$ 的估计记为：

\[\hat{\bm{\beta}}_p = (X_p' X_p)^{-1} X_p' \bm{y} \tag{5.1.5} \]

\[\hat{\sigma}_p^2 = \frac{1}{n-p-1} \text{SSE}_p \tag{5.1.6} \]

5.1.2 自变量选择对预测的影响

假设全模型式 $(5.1.1)$ 与选模型式 $(5.1.2)$ 不同，即要求 $p < m$，$\beta_{p+1} x_{p+1} + beta_m x_m$ 不恒为零。在此条件下，当全模型式 $(5.1.1)$ 正确而误用了选模型式 $(5.1.2)$ 时。有如下性质：

定理 5.1.1

在 $x_j$ 与 $x_{p+1}$，$\cdots$，$x_m$ 的相关系数不全为零时，选模型回归系数的最小二乘估计是全模型相关参数的有偏估计，即 $E(\hat{\beta}_{jp})=\beta_{jp} \neq \beta_j \,(j=1,2,\cdots,p)$。

选模型的预测是有偏的。给定新自变量值，$\bm{x}_{0m}=(x_{01},x_{02},\cdots,x_{0m})’$，因变量新值为 $y_0=\beta_0 + \beta_1 x_{01} + $

posted on 2022-05-05 14:25 Black_x 阅读(998) 评论(0) 收藏举报

刷新页面返回顶部

Black_x