数学 - 回归分析 - 第 5 章 自变量选择与逐步回归 - 5.1 自变量选择对估计和预测的影响
5.1 自变量选择对估计和预测的影响
回归自变量的选择无疑是建立回归模型的一个极为重要的问题。在建立一个实际问题的回归模型时,首先碰到的问题便是如何确定回归自变量,一般情况下,我们大多是根据所研究问题的目的,结合相关理论罗列出对因变量可能有影响的一些因素。
如果遗漏了某些重要的变量,回归方程的效果肯定肯定不好;如果担心遗漏了重要的变量而考虑过多的自变量,在这些变量中,某些自变量对问题的研究可能并不重要,有些自变量数据的质量可能很差,有些自变量可能和其他自变量有很大程度的重叠。结果,不仅计算量增大很多,而且得到的回归方程稳定性很差,直接影响到回归方程的应用。
5.1.1 全模型和选模型
设我们研究的某一实际问题所涉及的对因变量有影响的因素共有 \(m\) 个,由因变量 \(y\) 和 \(m\) 个自变量 \(x_1\),\(x_2\),\(\cdots\),\(x_m\) 构成的回归模型为:
因为模型式 \((5.1.1)\) 是因变量 \(y\) 与所有自变量 \(x_1\),\(\cdots\),\(x_m\) 的回归模型,故称式 \((5.1.1)\) 为全回归模型。
如果从所有可供选择的 \(m\) 个变量中挑选出 \(p\) 个,记为 \(x_1\),\(x_2\),\(\cdots\),\(x_p\),由所选的 \(p\) 个自变量组成的回归模型为:
相对全模型而言,我们称模型 \((5.1.2)\) 为选回归模型。选模型式 \((5.1.2)\) 的 \(p\) 个自变量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 并不一定是全体 \(m\) 个自变量 \(x_1\),\(x_2\),\(\cdots\),\(x_m\) 中的前 \(p\) 个,实际上是在全体 \(m\) 个自变量 \(x_1\),\(x_2\),\(\cdots\),\(x_m\) 中按某种规则挑选出的 \(p\) 个,不过为了方便,我们不妨认为\(x_1\),\(x_2\),\(\cdots\),\(x_p\) 就是 \(m\) 个自变量 \(x_1\),\(x_2\),\(\cdots\),\(x_m\) 中的前 \(p\) 个。
为了方便,把模型式 \((5.1.1)\) 的参数向量 \(\bm{\beta}\) 和 \(\sigma^2\) 的估计记为:
把模型式 \((5.2)\) 的参数向量 \(\bm{\beta}\) 和 \(\sigma^2\) 的估计记为:
5.1.2 自变量选择对预测的影响
假设全模型式 \((5.1.1)\) 与选模型式 \((5.1.2)\) 不同,即要求 \(p < m\),\(\beta_{p+1} x_{p+1} + beta_m x_m\) 不恒为零。在此条件下,当全模型式 \((5.1.1)\) 正确而误用了选模型式 \((5.1.2)\) 时。有如下性质:
定理 5.1.1
在 \(x_j\) 与 \(x_{p+1}\),\(\cdots\),\(x_m\) 的相关系数不全为零时,选模型回归系数的最小二乘估计是全模型相关参数的有偏估计,即 \(E(\hat{\beta}_{jp})=\beta_{jp} \neq \beta_j \,(j=1,2,\cdots,p)\)。
选模型的预测是有偏的。给定新自变量值,\(\bm{x}_{0m}=(x_{01},x_{02},\cdots,x_{0m})’\),因变量新值为 $y_0=\beta_0 + \beta_1 x_{01} + $
浙公网安备 33010602011771号