回归分析10:自变量的选择(2)
Chapter 10:自变量的选择(2)
5.2 自变量选择的准则
5.2.3 \(C_p\) 统计量准则
\(C_p\) 统计量准则是从预测的角度提出来的自变量选择的准则。对于选模型,定义 \(C_p\) 统计量为
这里 \({\rm RSS}_q\) 是选模型的残差平方和,\(\hat\sigma^2\) 是全模型中 \(\sigma^2\) 的最小二乘估计。我们按照 \(C_p\) 统计量越小越好的准则选择自变量,并称其为 \(C_p\) 准则。
提出 \(C_p\) 统计量的想法如下:假设全模型为真,但为了提高预测的精度,用选模型做预测,因此需要 \(n\) 个预测值与期望值的相对偏差平方和的期望值(定义为 \(\Gamma_q\))达到最小。计算可得:
其中,第一部分 \(I_1\) 容易计算:
第二部分 \(I_2\) 可利用定理 5.1.1 (1) 的结论和 (4) 的证明过程计算:
其中 \(M=\left(D-C'B^{-1}C\right)^{-1}\) 。将 \(I_1\) 和 \(I_2\) 代入到 \(\Gamma_q\) 中得到
因为 \({\rm E}\left({\rm RSS}_q\right)\) 和 \(\sigma^2\) 未知,所以我们用 \({\rm RSS}_q\) 和 \(\hat\sigma^2\) 代替即可得到 \(C_p\) 统计量。为什么 \(C_p\) 统计量可以作为自变量选择的准则,我们可以通过 \(C_p\) 统计量的性质看出。
定理 5.2.1:假设随机向量 \(e\sim N\left(0,\sigma^2I_n\right)\) ,则对选模型的 \(C_p\) 统计量,有
其中 \(M=\left(D-C'B^{-1}C\right)^{-1},\,B=X_q'X_q,\,C=X_q'X_t,\,D=X_t'X_t\) 。
只需求出 \({\rm E}({\rm RSS}_q/\hat\sigma^2)\) ,对于全模型,残差平方和 \({\rm RSS}=(n-p-1)\hat\sigma^2\) 且
\[\frac{\rm RSS}{\sigma^2}\sim\chi^2(n-p-1) \ . \]选模型中的残差平方和 \({\rm RSS}_q\) 可以看作在假设 \(H_0:\beta_t=0\) 下模型的残差平方和,根据最小二乘法基本定理,\(\eta\xlongequal{def}{\rm RSS}_q-{\rm RSS}\) 与 \({\rm RSS}\) 相互独立,且有
\[\begin{aligned} {\rm E}\left(\frac{{\rm RSS}_q}{\hat\sigma^2}\right)&=(n-p-1){\rm E}\left(\frac{{\rm RSS}_q}{\rm RSS}\right) \\ \\ &=(n-p-1){\rm E}\left[1+{\rm E}(\eta)\cdot{\rm E}\left(\frac{1}{\rm RSS}\right)\right] \ . \end{aligned} \]记 \(k=n-p-1\) ,由 \({\rm RSS}/\sigma^2\sim\chi^2(k)\) 得
\[\begin{aligned} {\rm E}\left(\frac{\sigma^2}{\rm RSS}\right)&=2^{-\frac k2}\left[\Gamma\left(\frac k2\right)\right]^{-1}\int_0^\infty x^{-1}e^{-\frac x2}x^{\frac k2-1}{\rm d}x \\ \\ &=2^{-\frac k2}\left[\Gamma\left(\frac k2\right)\right]^{-1}2^{\frac k2-1}\Gamma\left(\frac k2-1\right) \\ \\ &=\frac{1}{k-2}=\frac{1}{n-p-3} \ . \end{aligned} \]因此
\[{\rm E}\left(\frac{1}{\rm RSS}\right)=\frac1{\sigma^2}\cdot \frac{1}{n-p-3} \ . \]假设 \(H_0:\beta_t=0\) 可以等价写成线性假设 \(H_0:A\beta=0\) ,其中 \(A=(0,I_t)\) ,这里的 \(0\) 是 \(t\times(q+1)\) 的零矩阵,显然 \({\rm rank}(A)=t\) 。同时注意到
\[\hat\beta_t\sim N(\beta_t,\sigma^2M) \ , \]于是有
\[\frac1\sigma M^{-\frac12}\hat\beta_t\sim N\left(\frac1\sigma M^{-\frac12}\beta_t,I_t\right) \ . \]由非中心卡方分布的定义可知
\[\frac{\eta}{\sigma^2}=\frac{\hat\beta_t'M^{-1}\hat\beta_t}{\sigma^2}=\left(\frac1\sigma M^{-\frac12}\hat\beta_t\right)'\left(\frac1\sigma M^{-\frac12}\hat\beta_t\right)\sim\chi^2(t,\delta) \ , \]其中
\[\delta=\left(\frac1\sigma M^{-\frac12}\beta_t\right)'\left(\frac1\sigma M^{-\frac12}\beta_t\right)=\frac{\beta_t'M^{-1}\beta_t}{\sigma^2} \ . \]因此
\[{\rm E}(\eta)=\sigma^2\left(t+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}\right) \ . \]注意到 \(p=q+t\) ,于是可以推知
\[\begin{aligned} {\rm E}(C_p)&={\rm E}\left(\frac{{\rm RSS}_q}{\hat\sigma^2}\right)-[n-2(q+1)] \\ \\ &=(n-p-1)\left[1+\frac{1}{n-p-3}\left(t+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}\right)\right]--[n-2(q+1)] \\ \\ &=q+1-t+\frac{n-p-1}{n-p-3}\left(t+\frac{\beta_t'M^{-1}\beta_t}{\sigma^2}\right) \end{aligned} \]
这个定理说明 \(C_p\) 统计量不是 \(\Gamma_p\) 的无偏估计量,但当 \(n\to\infty\) 时,则有 \({\rm E}(C_p)\to\Gamma_p\) ,即 \(C_p\) 统计量是 \(\Gamma_p\) 的渐进无偏估计量。这里我们不考虑超高维数据的情况,即当 \(n\) 较大的时候,\(n-p\) 也较大。根据 \(\Gamma_p\) 的意义,我们希望 \(\Gamma_p\) 越小越好,所以我们应该选择具有最小 \(C_p\) 统计量的值的自变量子集。
推论:在定理 5.2.1 的条件下,若 \(\beta_t=0\) ,则
等价地
其中
注意到 \(u\) 是假设 \(H_0:\beta_t=0\) 的 \(F\) 检验统计量:
\[u=\frac{({\rm RSS}_q-{\rm RSS})/t}{{\rm RSS}/(n-p-1)}=\frac{{\rm RSS}_q-{\rm RSS}}{t\hat\sigma^2} \ . \]所以,若 \(\beta_t=0\) ,则由最小二乘法基本定理知 \(u\sim F(t,n-p-1)\) ,代入到 \(C_p\) 统计量的表达式中:
\[\begin{aligned} C_p&=\frac{{\rm RSS}_q}{\hat\sigma^2}-[n-2(q+1)] \ , \\ \\ &=\left(\frac{{\rm RSS}_q-{\rm RSS}}{t\hat\sigma^2}+\frac{{\rm RSS}}{t\hat\sigma^2}\right)t-[n-2(q+1)] \ , \\ \\ &=tu+\frac{(n-p-1)\hat\sigma^2}{\hat\sigma^2}-[n-2(q+1)] \\ \\ &=(q+1-t)+tu \ . \end{aligned} \]
上述推论给我们提供了利用 \(C_p\) 统计量选择自变量的另一种思路。若 \(\beta_t=0\) ,则选模型是正确的,根据定理 5.2.1 可知
若 \(n-p\) 较大,则有 \({\rm E}(C_p)\approx q+1\) 。注意到 \(q+1\) 是选模型的设计矩阵的秩,说明对于正确的选模型,在平面直角坐标系中,点 \((q+1,C_p)\) 落在第一象限角平分线附近。
如果选模型不正确,即 \(\beta_t\neq0\) ,则当 \(n-p\) 较大时有
此时点 \((q+1,C_p)\) 将会向第一象限角平分线上方移动。于是,我们可以得到如下自变量的选择准则:选择使得点 \((q+1,C_p)\) 最接近第一象限角平分线且 \(C_p\) 值最小的选模型。
将平面直角坐标系中 \((q+1,C_p)\) 的散点图称为 \(C_p\) 图。
5.2.4 AIC 准则和 BIC 准则
以上三种自变量选择的准则是基于最小二乘估计来构造的统计量,而 AIC 准则和 BIC 准则是基于极大似然原理修正得到的较为一般的自变量选择的准则。
对于一般的统计模型,设 \(y_1,y_2,\cdots,y_n\) 是因变量的一个样本,来自某个含有 \(k\) 个参数的模型,对应的似然函数最大值记为 \(L_k(y_1,y_2,\cdots,y_n)\) ,AIC 准则希望选择使 \(\ln L_k(y_1,y_2,\cdots,y_n)-k\) 达到最大的模型。
对于线性回归模型,在选模型中,假设误差向量 \(e\sim N\left(0,\sigma^2I_n\right)\) ,则 \(\beta_q\) 与 \(\sigma^2\) 的似然函数为
容易求得 \(\beta_q\) 和 \(\sigma^2\) 的极大似然估计为
将 \(\tilde\beta_q\) 和 \(\tilde\sigma^2_q\) 代入似然函数,求得对数极大似然的值为
略去与 \(q\) 无关的项,按照 AIC 准则,我们得到统计量 \(-\dfrac n2\ln\left({\rm RSS}_q\right)-(q+1)\) ,并希望选择自变量子集使该统计量达到最大。等价地,我们令 \({\rm AIC}\) 统计量为
于是 AIC 准则即为选择使 \({\rm AIC}\) 统计量达到最小的自变量子集。
在 AIC 准则的基础上,原作者又基于 Bayes 方法提出了 BIC 准则,定义 \({\rm BIC}\) 统计量为
与 AIC 准则相比,BIC 准则对增加自变量个数的惩罚加强了,从而在选择变量进入模型上更加谨慎。
5.2.5 \(J_p\) 统计量准则
\(J_p\) 统计量准则也是从预测的角度提出来的自变量选择的准则,与 \(C_p\) 统计量准则的区别在于,\(J_p\) 统计量考虑的是预测偏差的方差之和,而 \(C_p\) 统计量考虑的是偏差平方和的期望。
利用选模型进行预测,预测偏差 \(y_0-x_{0q}'\tilde\beta_q\) 的方差为
因而在 \(n\) 个样本点上,\((x_i,\tilde y_i),\,i=1,2,\cdots,n\) ,其中 \(\tilde y_i\) 与 \(y_i\) 独立同分布,考虑样本内预测的预测偏差的方差之和
由于 \(\sigma^2\) 未知,所以用对应模型中 \(\sigma^2\) 的估计 \(\tilde\sigma_q^2\) 代入得到
这里 \((n+q+1)/(n-q-1)\) 起到了对增加自变量个数的惩罚作用。我们希望选择使 \(J_p\) 达到最小的自变量子集,这就是 \(J_p\) 统计量准则。
5.2.6 预测残差平方和准则
预测残差平方和准则简记为 \({\rm PRESS}_q\) 准则,理解它的构造思路比较重要。这里我们略去 \(q\) ,对全模型作推导。考虑在建立回归方程时略去第 \(i\) 组数据,此时记
相应的模型为
此时 \(\beta\) 的最小二乘估计为
用 \(x_{i}'\hat\beta_{(i)}\) 去预测 \(y_i\) ,预测偏差记为 \(\hat e_{(i)}\) ,即
定义预测残差平方和为
在第三章中我们已经证明
所以
这里的 \(\hat e_i\) 是全数据情形下的第 \(i\) 个残差,因此
若要计算 \({\rm PRESS}_q\) ,只需将 \(h_{ii}\) 换成 \(X_q\left(X_q'X_q\right)^{-1}X_q'\) ,即选模型的帽子矩阵的第 \(i\) 个对角线元素,将 \(\hat e_i\) 换成全数据情形下选模型的第 \(i\) 个残差即可。
我们选择使得 \({\rm PRESS}_q\) 达到最小的自变量子集,这就是预测残差平方和准则。
5.3 自变量选择的方法
在多元线性回归分析中,\(p\) 个自变量的所有可能的子集可以构成 \(2^p-1\) 个线性回归模型。当可供选择的自变量个数不太多时,利用前面介绍的自变量选择准则可以挑选出最优的线性回归模型。然而,当自变量的个数较多时,以上方法就不太适用了。为此,我们介绍一些较为简洁、快捷的自变量选择的方法。这些方法各有优缺点,没有绝对最优的方法。
5.3.1 向前法
向前法的思想是回归模型中的自变量由少到多,每次增加一个,直到没有可引入的自变量为止。
Step 1:因变量 \(y\) 对每个自变量 \(x_1,x_2,\cdots,x_p\) 分别建立一元线性回归模型。分别计算这 \(p\) 个回归模型的 \(p\) 个回归系数的 \(F\) 值,记为 \(F_1^{(1)},F_2^{(1)},\cdots,F_p^{(1)}\) 。选其最大者,记为
给定显著性水平 \(\alpha\) ,若 \(F_j^{(1)}>F_\alpha(1,n-2)\) ,则首先将 \(x_j\) 引入回归模型。不妨假设 \(x_j\) 就是 \(x_1\) 。
Step 2:因变量 \(y\) 对每组自变量 \((x_1,x_2),(x_1,x_3),\cdots,(x_1,x_p)\) 分别建立二元线性回归模型。分别计算这 \(p-1\) 个回归模型中\(x_2,x_3,\cdots,x_p\) 的回归系数计算 \(F\) 值,记为 \(F_2^{(2)},F_3^{(2)}\cdots,F_p^{(2)}\) 。选其最大者,记为
给定显著性水平 \(\alpha\) ,若 \(F_j^{(2)}>F_\alpha(1,n-3)\) ,则首先将 \(x_j\) 引入回归模型。不妨假设 \(x_j\) 就是 \(x_2\) 。
Step 3:继续以上做法,假设已确定选入 \(q\) 个自变量 \(x_1,x_2,\cdots,x_q\) ,在建立 \(q+1\) 元线性回归模型时,若所有的 \(x_{q+1},\cdots,x_p\) 的 \(F\) 值均不大于 \(F_\alpha(1,n-q-2)\) ,则变量选择结束。这时得到的 \(q\) 元线性回归模型就是向前法所确定的最优回归模型。
向前法的缺点是不能反映引入新变量后的变化情况。因为某个自变量可能刚开始时是显著的,但是当引入其他自变量后,它就变得不显著了,但是没有机会将其剔除。即一旦引入就是“终身制”的。
5.3.2 向后法
向后法的思想是选入的自变量个数由多到少,每次剔除一个,直到没有可剔除的自变量为止。
Step 1:因变量 \(y\) 对所有自变量 \(x_1,x_2,\cdots,x_p\) 建立一个 \(p\) 元线性回归模型,分别计算 \(p\) 个回归系数的 \(F\) 值,记为 \(F_1^{(p)},F_2^{(p)},\cdots,F_p^{(p)}\) 。选其最小者,记为
给定显著性水平 \(\beta\) ,若 \(F_j^{(p)}\leq F_\beta(1,n-p-1)\) ,则从回归模型中剔除 \(x_j\) 。不妨假设 \(x_j\) 就是 \(x_p\) 。
Step 2:因变量 \(y\) 对自变量 \(x_1,x_2,\cdots,x_{p-1}\) 建立一个 \(p-1\) 元线性回归模型。分别计算 \(p-1\) 个回归系数的 \(F\) 值,记为 \(F_1^{(p-1)},F_2^{(p-1)},\cdots,F_{p-1}^{(p-1)}\) 。选其最小者,记为
给定显著性水平 \(\beta\) ,若 \(F_j^{(p-1)}\leq F_\beta(1,n-p)\) ,则从回归模型中剔除 \(x_j\) 。不妨假设 \(x_j\) 就是 \(x_{p-1}\) 。
Step 3:继续以上做法,假设已确定剔除 \(p-q\) 个自变量 \(x_{q+1},\cdots,x_p\) ,在 \(y\) 关于 \(x_1,x_2,\cdots,x_q\) 建立 \(q\) 元线性回归模型时,若所有 \(x_1,x_2,\cdots,x_q\) 的 \(F\) 值均大于 \(F_\beta(1,n-q-1)\) ,则变量选择结束。这时得到的 \(q\) 元线性回归模型就是向后法所确定的最优回归模型。
向后法的缺点是一开始就把所有自变量引入回归模型,这样的计算量很大。另外,自变量一旦被剔除,将永远没有机会再重新进入回归模型,即“一棒子打死”的。
5.3.3 逐步回归法
逐步回归法的基本思想是有进有出。
将自变量一个一个地引入回归模型,每引入一个自变量后,都要对已选入的自变量进行逐个检验,当先引入的自变量由于后引入的自变量而变得不再显著时,就要将其剔除。将这个过程反复进行下去,直到既无显著的自变量引入回归模型,也无不显著的自变量从回归模型中剔除为止。这样就避免了向前法和向后法各自的缺点,以保证最后得到的自变量子集是“最优”的自变量子集。