回归分析10:自变量的选择(2)

Chapter 10:自变量的选择(2)

5.2 自变量选择的准则

5.2.3 \(C_p\) 统计量准则

\(C_p\) 统计量准则是从预测的角度提出来的自变量选择的准则。对于选模型,定义 \(C_p\) 统计量为

\[C_p=\frac{{\rm RSS}_q}{\hat\sigma^2}-[n-2(q+1)] \ , \]

这里 \({\rm RSS}_q\) 是选模型的残差平方和,\(\hat\sigma^2\) 是全模型中 \(\sigma^2\) 的最小二乘估计。我们按照 \(C_p\) 统计量越小越好的准则选择自变量,并称其为 \(C_p\) 准则。

提出 \(C_p\) 统计量的想法如下:假设全模型为真,但为了提高预测的精度,用选模型做预测,因此需要 \(n\) 个预测值与期望值的相对偏差平方和的期望值(定义为 \(\Gamma_q\))达到最小。计算可得:

\[\begin{aligned} \Gamma_q&\xlongequal{def}{\rm E}\left[\sum_{i=1}^n\left(\frac{\tilde{y}_{iq}-{\rm E}(y_i)}{\sigma}\right)^2\right]={\rm E}\left[\frac1{\sigma^2}\sum_{i=1}^n\left(x_{iq}'\tilde\beta_q-x_{i}'\beta\right)^2\right] \\ \\ &=\frac{1}{\sigma^2}\sum_{i=1}^n{\rm E}\left\{\left[x_{iq}'\tilde\beta_q-{\rm E}\left(x_{iq}'\tilde\beta_q\right)\right]+\left[{\rm E}\left(x_{iq}'\tilde\beta_q\right)-x_i'\beta\right]\right\}^2 \\ \\ &=\frac{1}{\sigma^2}\sum_{i=1}^n\left\{{\rm E}\left[x_{iq}'\tilde\beta_q-{\rm E}\left(x_{iq}'\tilde\beta_q\right)\right]^2+\left[{\rm E}\left(x_{iq}'\tilde\beta_q\right)-x_i'\beta\right]^2\right\} \\ \\ &\xlongequal{def}\frac{1}{\sigma^2}\left(I_1+I_2\right) \ . \end{aligned} \]

其中,第一部分 \(I_1\) 容易计算:

\[\begin{aligned} I_1&=\sum_{i=1}^n{\rm E}\left[x_{iq}'\tilde\beta_q-{\rm E}\left(x_{iq}'\tilde\beta_q\right)\right]^2=\sum_{i=1}^n{\rm Var}\left(x_{iq}'\tilde\beta_q\right) \\ \\ &=\sigma^2\sum_{i=1}^nx_{iq}'\left(X_q'X_q\right)^{-1}x_{iq} \\ \\ &=\sigma^2{\rm tr}\left[\left(X_q'X_q\right)^{-1}\sum_{i=1}^nx_{iq}x_{iq}'\right]=(q+1)\sigma^2 \ . \end{aligned} \]

第二部分 \(I_2\) 可利用定理 5.1.1 (1) 的结论和 (4) 的证明过程计算:

\[\begin{aligned} I_2&=\sum_{i=1}^n\left[{\rm E}\left(x_{iq}'\tilde\beta_q\right)-x_i'\beta\right]^2 \\ \\ &=\sum_{i=1}^n\left[x_{iq}'\left(\beta_q+B^{-1}C\beta_t\right)-x_{iq}'\beta_q-x_{it}'\beta_t\right]^2 \\ \\ &=\sum_{i=1}^n\beta_t'\left(C'B^{-1}x_{iq}-x_{it}\right)\left(C'B^{-1}x_{iq}-x_{it}\right)'\beta_t \\ \\ &=\sum_{i=1}^n\beta_t'\left[C'B^{-1}x_{iq}x_{iq}'B^{-1}C-x_{it}x_{iq}'B^{-1}C-C'B^{-1}x_{iq}x_{it}'+x_{it}x_{it}'\right]\beta_t \\ \\ &=\beta_t'\left[C'B^{-1}BB^{-1}C-C'B^{-1}C-C'B^{-1}C+D\right]\beta_t \\ \\ &=\beta_t'M^{-1}\beta_t \\ \\ &=(n-q-1)\left[{\rm E}(\tilde\sigma_q^2)-\sigma^2\right] \ . \end{aligned} \]

其中 \(M=\left(D-C'B^{-1}C\right)^{-1}\) 。将 \(I_1\)\(I_2\) 代入到 \(\Gamma_q\) 中得到

\[\begin{aligned} \Gamma_q&={\rm E}\left[\frac1{\sigma^2}\sum_{i=1}^n\left(x_{iq}'\tilde\beta_q-x_{i}'\beta\right)^2\right] \\ \\ &=\frac{1}{\sigma^2}\left[(q+1)\sigma^2+(n-q-1)\left[{\rm E}(\tilde\sigma_q^2)-\sigma^2\right]\right] \\ \\ &=\frac{{\rm E}\left({\rm RSS}_q\right)}{\sigma^2}-[n-2(q+1)] \\ \\ &\xlongequal{\text{or}}q+1+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2} \ . \end{aligned} \]

因为 \({\rm E}\left({\rm RSS}_q\right)\)\(\sigma^2\) 未知,所以我们用 \({\rm RSS}_q\)\(\hat\sigma^2\) 代替即可得到 \(C_p\) 统计量。为什么 \(C_p\) 统计量可以作为自变量选择的准则,我们可以通过 \(C_p\) 统计量的性质看出。

定理 5.2.1:假设随机向量 \(e\sim N\left(0,\sigma^2I_n\right)\) ,则对选模型的 \(C_p\) 统计量,有

\[{\rm E}\left(C_p\right)=q+1-t+\frac{n-p-1}{n-p-3}\left(t+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}\right) \ , \]

其中 \(M=\left(D-C'B^{-1}C\right)^{-1},\,B=X_q'X_q,\,C=X_q'X_t,\,D=X_t'X_t\)

只需求出 \({\rm E}({\rm RSS}_q/\hat\sigma^2)\) ,对于全模型,残差平方和 \({\rm RSS}=(n-p-1)\hat\sigma^2\)

\[\frac{\rm RSS}{\sigma^2}\sim\chi^2(n-p-1) \ . \]

选模型中的残差平方和 \({\rm RSS}_q\) 可以看作在假设 \(H_0:\beta_t=0\) 下模型的残差平方和,根据最小二乘法基本定理,\(\eta\xlongequal{def}{\rm RSS}_q-{\rm RSS}\)\({\rm RSS}\) 相互独立,且有

\[\begin{aligned} {\rm E}\left(\frac{{\rm RSS}_q}{\hat\sigma^2}\right)&=(n-p-1){\rm E}\left(\frac{{\rm RSS}_q}{\rm RSS}\right) \\ \\ &=(n-p-1){\rm E}\left[1+{\rm E}(\eta)\cdot{\rm E}\left(\frac{1}{\rm RSS}\right)\right] \ . \end{aligned} \]

\(k=n-p-1\) ,由 \({\rm RSS}/\sigma^2\sim\chi^2(k)\)

\[\begin{aligned} {\rm E}\left(\frac{\sigma^2}{\rm RSS}\right)&=2^{-\frac k2}\left[\Gamma\left(\frac k2\right)\right]^{-1}\int_0^\infty x^{-1}e^{-\frac x2}x^{\frac k2-1}{\rm d}x \\ \\ &=2^{-\frac k2}\left[\Gamma\left(\frac k2\right)\right]^{-1}2^{\frac k2-1}\Gamma\left(\frac k2-1\right) \\ \\ &=\frac{1}{k-2}=\frac{1}{n-p-3} \ . \end{aligned} \]

因此

\[{\rm E}\left(\frac{1}{\rm RSS}\right)=\frac1{\sigma^2}\cdot \frac{1}{n-p-3} \ . \]

假设 \(H_0:\beta_t=0\) 可以等价写成线性假设 \(H_0:A\beta=0\) ,其中 \(A=(0,I_t)\) ,这里的 \(0\)\(t\times(q+1)\) 的零矩阵,显然 \({\rm rank}(A)=t\) 。同时注意到

\[\hat\beta_t\sim N(\beta_t,\sigma^2M) \ , \]

于是有

\[\frac1\sigma M^{-\frac12}\hat\beta_t\sim N\left(\frac1\sigma M^{-\frac12}\beta_t,I_t\right) \ . \]

由非中心卡方分布的定义可知

\[\frac{\eta}{\sigma^2}=\frac{\hat\beta_t'M^{-1}\hat\beta_t}{\sigma^2}=\left(\frac1\sigma M^{-\frac12}\hat\beta_t\right)'\left(\frac1\sigma M^{-\frac12}\hat\beta_t\right)\sim\chi^2(t,\delta) \ , \]

其中

\[\delta=\left(\frac1\sigma M^{-\frac12}\beta_t\right)'\left(\frac1\sigma M^{-\frac12}\beta_t\right)=\frac{\beta_t'M^{-1}\beta_t}{\sigma^2} \ . \]

因此

\[{\rm E}(\eta)=\sigma^2\left(t+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}\right) \ . \]

注意到 \(p=q+t\) ,于是可以推知

\[\begin{aligned} {\rm E}(C_p)&={\rm E}\left(\frac{{\rm RSS}_q}{\hat\sigma^2}\right)-[n-2(q+1)] \\ \\ &=(n-p-1)\left[1+\frac{1}{n-p-3}\left(t+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}\right)\right]--[n-2(q+1)] \\ \\ &=q+1-t+\frac{n-p-1}{n-p-3}\left(t+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}\right) \end{aligned} \]

这个定理说明 \(C_p\) 统计量不是 \(\Gamma_p\) 的无偏估计量,但当 \(n\to\infty\) 时,则有 \({\rm E}(C_p)\to\Gamma_p\) ,即 \(C_p\) 统计量是 \(\Gamma_p\) 的渐进无偏估计量。这里我们不考虑超高维数据的情况,即当 \(n\) 较大的时候,\(n-p\) 也较大。根据 \(\Gamma_p\) 的意义,我们希望 \(\Gamma_p\) 越小越好,所以我们应该选择具有最小 \(C_p\) 统计量的值的自变量子集。

推论:在定理 5.2.1 的条件下,若 \(\beta_t=0\) ,则

\[C_p=(q+1-t)+tu \ , \]

等价地

\[C_p-(q+1)=t(u-1) \ , \]

其中

\[u=\frac{({\rm RSS}_q-{\rm RSS})/t}{{\rm RSS}/(n-p-1)}\sim F(t,n-p-1) \ . \]

注意到 \(u\) 是假设 \(H_0:\beta_t=0\)\(F\) 检验统计量:

\[u=\frac{({\rm RSS}_q-{\rm RSS})/t}{{\rm RSS}/(n-p-1)}=\frac{{\rm RSS}_q-{\rm RSS}}{t\hat\sigma^2} \ . \]

所以,若 \(\beta_t=0\) ,则由最小二乘法基本定理知 \(u\sim F(t,n-p-1)\) ,代入到 \(C_p\) 统计量的表达式中:

\[\begin{aligned} C_p&=\frac{{\rm RSS}_q}{\hat\sigma^2}-[n-2(q+1)] \ , \\ \\ &=\left(\frac{{\rm RSS}_q-{\rm RSS}}{t\hat\sigma^2}+\frac{{\rm RSS}}{t\hat\sigma^2}\right)t-[n-2(q+1)] \ , \\ \\ &=tu+\frac{(n-p-1)\hat\sigma^2}{\hat\sigma^2}-[n-2(q+1)] \\ \\ &=(q+1-t)+tu \ . \end{aligned} \]

上述推论给我们提供了利用 \(C_p\) 统计量选择自变量的另一种思路。若 \(\beta_t=0\) ,则选模型是正确的,根据定理 5.2.1 可知

\[{\rm E}\left(C_p\right)=q+1-t+\frac{n-p-1}{n-p-3}t \ , \]

\(n-p\) 较大,则有 \({\rm E}(C_p)\approx q+1\) 。注意到 \(q+1\) 是选模型的设计矩阵的秩,说明对于正确的选模型,在平面直角坐标系中,点 \((q+1,C_p)\) 落在第一象限角平分线附近。

如果选模型不正确,即 \(\beta_t\neq0\) ,则当 \(n-p\) 较大时有

\[{\rm E}\left(C_p\right)\approx q+1+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}>q+1 \ , \]

此时点 \((q+1,C_p)\) 将会向第一象限角平分线上方移动。于是,我们可以得到如下自变量的选择准则:选择使得点 \((q+1,C_p)\) 最接近第一象限角平分线且 \(C_p\) 值最小的选模型。

将平面直角坐标系中 \((q+1,C_p)\) 的散点图称为 \(C_p\) 图。

5.2.4 AIC 准则和 BIC 准则

以上三种自变量选择的准则是基于最小二乘估计来构造的统计量,而 AIC 准则和 BIC 准则是基于极大似然原理修正得到的较为一般的自变量选择的准则。

对于一般的统计模型,设 \(y_1,y_2,\cdots,y_n\) 是因变量的一个样本,来自某个含有 \(k\) 个参数的模型,对应的似然函数最大值记为 \(L_k(y_1,y_2,\cdots,y_n)\) ,AIC 准则希望选择使 \(\ln L_k(y_1,y_2,\cdots,y_n)-k\) 达到最大的模型。

对于线性回归模型,在选模型中,假设误差向量 \(e\sim N\left(0,\sigma^2I_n\right)\) ,则 \(\beta_q\)\(\sigma^2\) 的似然函数为

\[L\left(\beta_q,\sigma^2|Y\right)=\frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left\{-\frac{1}{2\sigma^2}\left\|Y-X_q\beta_q\right\|^2\right\} \ . \]

容易求得 \(\beta_q\)\(\sigma^2\) 的极大似然估计为

\[\tilde\beta_q=\left(X_q'X_q\right)^{-1}X_q'Y \ , \quad \tilde\sigma^2_q=\frac{{\rm RSS}_q}{n}=\frac{Y'\left[I_n-X_q\left(X_q'X_q\right)^{-1}X_q'\right]Y}{n} \ . \]

\(\tilde\beta_q\)\(\tilde\sigma^2_q\) 代入似然函数,求得对数极大似然的值为

\[\ln L(\tilde\beta_q,\tilde\sigma_q^2|Y)=\frac n2\ln\left(\frac{n}{2\pi}\right)-\frac n2-\frac n2\ln\left({\rm RSS}_q\right) \ . \]

略去与 \(q\) 无关的项,按照 AIC 准则,我们得到统计量 \(-\dfrac n2\ln\left({\rm RSS}_q\right)-(q+1)\) ,并希望选择自变量子集使该统计量达到最大。等价地,我们令 \({\rm AIC}\) 统计量为

\[{\rm AIC}=n\ln\left({\rm RSS}_q\right)+2(q+1) \ , \]

于是 AIC 准则即为选择使 \({\rm AIC}\) 统计量达到最小的自变量子集。

在 AIC 准则的基础上,原作者又基于 Bayes 方法提出了 BIC 准则,定义 \({\rm BIC}\) 统计量为

\[{\rm BIC}=n\ln\left({\rm RSS}_q\right)+(q+1)\ln n \ , \]

与 AIC 准则相比,BIC 准则对增加自变量个数的惩罚加强了,从而在选择变量进入模型上更加谨慎。

5.2.5 \(J_p\) 统计量准则

\(J_p\) 统计量准则也是从预测的角度提出来的自变量选择的准则,与 \(C_p\) 统计量准则的区别在于,\(J_p\) 统计量考虑的是预测偏差的方差之和,而 \(C_p\) 统计量考虑的是偏差平方和的期望。

利用选模型进行预测,预测偏差 \(y_0-x_{0q}'\tilde\beta_q\) 的方差为

\[\left[1+x_{0q}'\left(X_q'X_q\right)^{-1}x_{0q}\right]\sigma^2 \ , \]

因而在 \(n\) 个样本点上,\((x_i,\tilde y_i),\,i=1,2,\cdots,n\) ,其中 \(\tilde y_i\)\(y_i\) 独立同分布,考虑样本内预测的预测偏差的方差之和

\[\begin{aligned} \sum_{i=1}^n{\rm Var}\left(\tilde y_i-x_{iq}'\tilde\beta_q\right)&=\sigma^2\sum_{i=1}^n\left[1+x_{iq}'\left(X_q'X_q\right)^{-1}x_{iq}\right] \\ \\ &=n\sigma^2+\sigma^2{\rm tr}\left[\left(X_q'X_q\right)^{-1}\sum_{i=1}^nx_{iq}x_{iq}'\right] \\ \\ &=(n+q+1)\sigma^2 \ . \end{aligned} \]

由于 \(\sigma^2\) 未知,所以用对应模型中 \(\sigma^2\) 的估计 \(\tilde\sigma_q^2\) 代入得到

\[J_p\xlongequal{def}(n+q+1)\tilde\sigma_q^2=\frac{n+q+1}{n-q-1}{\rm RSS}_q \ . \]

这里 \((n+q+1)/(n-q-1)\) 起到了对增加自变量个数的惩罚作用。我们希望选择使 \(J_p\) 达到最小的自变量子集,这就是 \(J_p\) 统计量准则。

5.2.6 预测残差平方和准则

预测残差平方和准则简记为 \({\rm PRESS}_q\) 准则,理解它的构造思路比较重要。这里我们略去 \(q\) ,对全模型作推导。考虑在建立回归方程时略去第 \(i\) 组数据,此时记

\[Y_{(i)}=\begin{bmatrix} y_1 \\ \vdots \\ y_{i-1} \\ y_{i+1} \\ \vdots \\ y_n \end{bmatrix} \ , \quad X_{(i)}=\begin{bmatrix} x_1' \\ \vdots \\ x_{i-1}' \\ x_{i+1}' \\ \vdots \\ x_n' \end{bmatrix} \ , \quad e_{(i)}=\begin{bmatrix} e_1 \\ \vdots \\ e_{i-1} \\ e_{i+1} \\ \vdots \\ e_n \end{bmatrix} \ . \]

相应的模型为

\[Y_{(i)}=X_{(i)}\beta+e_{(i)} \ . \]

此时 \(\beta\) 的最小二乘估计为

\[\hat\beta_{(i)}=\left(X_{(i)}'X_{(i)}\right)^{-1}X_{(i)}'Y_{(i)} \ . \]

\(x_{i}'\hat\beta_{(i)}\) 去预测 \(y_i\) ,预测偏差记为 \(\hat e_{(i)}\) ,即

\[\hat e_{(i)}=y_i-x_{i}'\hat\beta_{(i)} \ . \]

定义预测残差平方和为

\[{\rm PRESS}=\sum_{i=1}^n\left[\hat e_{(i)}\right]^2 \ . \]

在第三章中我们已经证明

\[\hat\beta_{(i)}=\hat\beta-\frac{\left(X'X\right)^{-1}x_i\hat e_i}{1-h_{ii}} \ , \]

所以

\[\hat e_{(i)}=y_i-x_i'\hat\beta+\frac{x_i'\left(X'X\right)^{-1}x_i\hat e_i}{1-h_{ii}}=\hat e_i+\frac{h_{ii}}{1-h_{ii}}\hat e_i=\frac{\hat e_i}{1-h_{ii}} \ . \]

这里的 \(\hat e_i\) 是全数据情形下的第 \(i\) 个残差,因此

\[{\rm PRESS}=\sum_{i=1}^n\frac{\hat e_i^2}{(1-h_{ii})^2} \ . \]

若要计算 \({\rm PRESS}_q\) ,只需将 \(h_{ii}\) 换成 \(X_q\left(X_q'X_q\right)^{-1}X_q'\) ,即选模型的帽子矩阵的第 \(i\) 个对角线元素,将 \(\hat e_i\) 换成全数据情形下选模型的第 \(i\) 个残差即可。

我们选择使得 \({\rm PRESS}_q\) 达到最小的自变量子集,这就是预测残差平方和准则。

5.3 自变量选择的方法

在多元线性回归分析中,\(p\) 个自变量的所有可能的子集可以构成 \(2^p-1\) 个线性回归模型。当可供选择的自变量个数不太多时,利用前面介绍的自变量选择准则可以挑选出最优的线性回归模型。然而,当自变量的个数较多时,以上方法就不太适用了。为此,我们介绍一些较为简洁、快捷的自变量选择的方法。这些方法各有优缺点,没有绝对最优的方法。

5.3.1 向前法

向前法的思想是回归模型中的自变量由少到多,每次增加一个,直到没有可引入的自变量为止。

Step 1:因变量 \(y\) 对每个自变量 \(x_1,x_2,\cdots,x_p\) 分别建立一元线性回归模型。分别计算这 \(p\) 个回归模型的 \(p\) 个回归系数的 \(F\) 值,记为 \(F_1^{(1)},F_2^{(1)},\cdots,F_p^{(1)}\) 。选其最大者,记为

\[F_j^{(1)}=\max\left\{F_1^{(1)},F_2^{(1)},\cdots,F_p^{(1)}\right\} \ . \]

给定显著性水平 \(\alpha\) ,若 \(F_j^{(1)}>F_\alpha(1,n-2)\) ,则首先将 \(x_j\) 引入回归模型。不妨假设 \(x_j\) 就是 \(x_1\)

Step 2:因变量 \(y\) 对每组自变量 \((x_1,x_2),(x_1,x_3),\cdots,(x_1,x_p)\) 分别建立二元线性回归模型。分别计算这 \(p-1\) 个回归模型中\(x_2,x_3,\cdots,x_p\) 的回归系数计算 \(F\) 值,记为 \(F_2^{(2)},F_3^{(2)}\cdots,F_p^{(2)}\) 。选其最大者,记为

\[F_j^{(2)}=\max\left\{F_2^{(2)},F_3^{(2)},\cdots,F_p^{(2)}\right\} \ . \]

给定显著性水平 \(\alpha\) ,若 \(F_j^{(2)}>F_\alpha(1,n-3)\) ,则首先将 \(x_j\) 引入回归模型。不妨假设 \(x_j\) 就是 \(x_2\)

Step 3:继续以上做法,假设已确定选入 \(q\) 个自变量 \(x_1,x_2,\cdots,x_q\) ,在建立 \(q+1\) 元线性回归模型时,若所有的 \(x_{q+1},\cdots,x_p\)\(F\) 值均不大于 \(F_\alpha(1,n-q-2)\) ,则变量选择结束。这时得到的 \(q\) 元线性回归模型就是向前法所确定的最优回归模型。

向前法的缺点是不能反映引入新变量后的变化情况。因为某个自变量可能刚开始时是显著的,但是当引入其他自变量后,它就变得不显著了,但是没有机会将其剔除。即一旦引入就是“终身制”的。

5.3.2 向后法

向后法的思想是选入的自变量个数由多到少,每次剔除一个,直到没有可剔除的自变量为止。

Step 1:因变量 \(y\) 对所有自变量 \(x_1,x_2,\cdots,x_p\) 建立一个 \(p\) 元线性回归模型,分别计算 \(p\) 个回归系数的 \(F\) 值,记为 \(F_1^{(p)},F_2^{(p)},\cdots,F_p^{(p)}\) 。选其最小者,记为

\[F_j^{(p)}=\min\left\{F_1^{(p)},F_2^{(p)},\cdots,F_p^{(p)}\right\} \ . \]

给定显著性水平 \(\beta\) ,若 \(F_j^{(p)}\leq F_\beta(1,n-p-1)\) ,则从回归模型中剔除 \(x_j\) 。不妨假设 \(x_j\) 就是 \(x_p\)

Step 2:因变量 \(y\) 对自变量 \(x_1,x_2,\cdots,x_{p-1}\) 建立一个 \(p-1\) 元线性回归模型。分别计算 \(p-1\) 个回归系数的 \(F\) 值,记为 \(F_1^{(p-1)},F_2^{(p-1)},\cdots,F_{p-1}^{(p-1)}\) 。选其最小者,记为

\[F_j^{(p-1)}=\min\left\{F_1^{(p-1)},F_2^{(p-1)},\cdots,F_{p-1}^{(p-1)}\right\} \ . \]

给定显著性水平 \(\beta\) ,若 \(F_j^{(p-1)}\leq F_\beta(1,n-p)\) ,则从回归模型中剔除 \(x_j\) 。不妨假设 \(x_j\) 就是 \(x_{p-1}\)

Step 3:继续以上做法,假设已确定剔除 \(p-q\) 个自变量 \(x_{q+1},\cdots,x_p\) ,在 \(y\) 关于 \(x_1,x_2,\cdots,x_q\) 建立 \(q\) 元线性回归模型时,若所有 \(x_1,x_2,\cdots,x_q\)\(F\) 值均大于 \(F_\beta(1,n-q-1)\) ,则变量选择结束。这时得到的 \(q\) 元线性回归模型就是向后法所确定的最优回归模型。

向后法的缺点是一开始就把所有自变量引入回归模型,这样的计算量很大。另外,自变量一旦被剔除,将永远没有机会再重新进入回归模型,即“一棒子打死”的。

5.3.3 逐步回归法

逐步回归法的基本思想是有进有出。

将自变量一个一个地引入回归模型,每引入一个自变量后,都要对已选入的自变量进行逐个检验,当先引入的自变量由于后引入的自变量而变得不再显著时,就要将其剔除。将这个过程反复进行下去,直到既无显著的自变量引入回归模型,也无不显著的自变量从回归模型中剔除为止。这样就避免了向前法和向后法各自的缺点,以保证最后得到的自变量子集是“最优”的自变量子集。

posted @ 2021-12-19 15:27  这个XD很懒  阅读(1368)  评论(0编辑  收藏  举报