回归分析05:回归参数的估计(3)
Chapter 5:回归参数的估计(3)
3.5 Box-Cox 变换
接下来我们关注的问题是,经过回归诊断后,观测数据不满足线性假设、方差齐性假设、不相关假设和正态性假设中的一个或若干个的情况。我们需要对有问题的数据采取一些治疗措施,数据变换便是其中之一,其中 Box-Cox 变换是实践中比较行之有效的一种数据变换方法。
设 \(\lambda\) 是一个待定的变换参数,Box-Cox 变换是对因变量作如下的变换:
Box-Cox 变换是一族变换,它包括了许多常见的变换,如对数变换 \((\lambda=0)\) ,倒数变换 \((\lambda=-1)\) 和平方根变换 \((\lambda=1/2)\) 等等。
对因变量的 \(n\) 个观测值 \(y_1,y_2,\cdots,y_n\) 作 Box-Cox 变换,得到变换后的观测向量为
我们希望变换参数 \(\lambda\) 能够使得 \(Y^{(\lambda)}\) 满足一个理想的线性回归模型,即
因此,我们要去变换后的观测向量 \(Y^{(\lambda)}\) 与回归自变量之间具有线性相关关系,误差满足方差齐性、相互独立和正态分布。可以看出,Box-Cox 变换是通过对参数 \(\lambda\) 的选择,达到对原来数据的综合治理,使其满足一个正态线性回归模型的所有假设条件。
下面用极大似然方法来确定 \(\lambda\) 的取值,写出 \(Y^{(\lambda)}\) 的似然函数
所以 \(Y\) 的似然函数为
其中 \(J\) 为变换的 Jacobi 行列式
对 \(\ln L\left(\beta,\sigma^2;Y\right)\) 关于 \(\beta\) 和 \(\sigma^2\) 求导并令其等于 \(0\) ,可得 \(\beta\) 和 \(\sigma^2\) 的极大似然估计为
对应的极大似然为
这是关于 \(\lambda\) 的函数,继续求其对数似然的最大值来确定 \(\lambda\) 的极大似然估计,
其中
可以看出,求 \(\ln L_\max(\lambda)\) 的最大值,只需求 \({\rm RSS}\left(\lambda,Z^{(\lambda)}\right)\) 的最小值。虽然我们很难找到满足条件的 \(\lambda\) 的解析表达式,但这会给计算机上的实现带来很大的方便。
Box-Cox 变换计算机实现的具体步骤:
- 对给定的 \(\lambda\) 值,计算 \(z_i^{(\lambda)},\,i=1,2,\cdots,n\) ;
- 计算残差平方和 \({\rm RSS}\left(\lambda,Z^{(\lambda)}\right)={Z^{(\lambda)}}'\left(I_n-H\right)Z^{(\lambda)}\) ;
- 给定一系列 \(\lambda\) 值,重复上述步骤,得到一系列相应的残差平方和,找出使 \({\rm RSS}\left(\lambda,Z^{(\lambda)}\right)\) 达到最小值的 \(\lambda\) 值。
3.6 广义最小二乘估计
在前面的讨论中,我们总是假定线性回归模型的误差是方差齐性且不相关的,即 \({\rm Cov}(e)=\sigma^2I_n\) 。但是在许多实际问题中,数据往往是不满足这个假设的。上一节中,我们介绍的 Cox-Box 变换是一种通用的但较为复杂的修正数据的措施,这一节我们仅考虑不满足方差齐性且不相关假设的问题,并对此提出有针对性的解决方案。
我们要讨论的是具有异方差和自相关问题的线性回归模型为
这里 \(\Sigma\) 是一个对称正定矩阵,假设 \(\Sigma\) 是完全已知的,我们的主要目的是估计 \(\beta\) 。
因为 \(\Sigma\) 是对称正定矩阵,所以存在 \(n\times n\) 的正交矩阵 \(P\) 使得
这里 \(\lambda_i>0,\,i=1,2,\cdots,n\) 是 \(\Sigma\) 的特征根。记 \(\Sigma^{1/2}\) 是 \(\Sigma\) 的平方根阵,\(\Sigma^{-1/2}\) 是 \(\Sigma^{1/2}\) 的逆矩阵,满足
我们对上述线性回归模型进行正交变换,用 \(\Sigma^{-1/2}\) 左乘,记
因为 \({\rm Cov}(\varepsilon)=\Sigma^{-1/2}\sigma^2\Sigma\Sigma^{-1/2}=\sigma^2I_n\) ,于是得到如下的线性回归模型
在新模型中,可得 \(\beta\) 的最小二乘估计为
我们称之为 \(\beta\) 的广义最小二乘估计 (GLSE) ,注意它与 \(\sigma^2\) 无关,也具有良好的统计性质。
定理 3.6.1 对于具有异方差和自相关问题的线性回归模型,下列结论成立:
(1) \({\rm E}\left(\beta^*\right)=\beta\) ;
(2) \({\rm Cov}\left(\beta^*\right)=\sigma^2\left(X'\Sigma^{-1}X\right)^{-1}\) ;
(3) 对任意的 \(p+1\) 维列向量 \(c\) ,有 \(c'\beta^*\) 是 \(c'\beta\) 的唯一最小方差线性无偏估计。
(1) 根据 \(\beta\) 的广义最小二乘估计的表达式,求数学期望可得
\[\begin{aligned} {\rm E}\left(\beta^*\right)&=\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}{\rm E}\left(Y\right)=\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}X\beta=\beta \ . \end{aligned} \](2) 利用定理 2.1.3 可得
\[\begin{aligned} {\rm Cov}\left(\beta^*\right)&={\rm Cov}\left[\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}Y\right] \\ \\ &=\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}{\rm Cov}\left(Y\right)\left[\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}\right]' \\ \\ &=\sigma^2\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}\Sigma\left[\left(X'\Sigma^{-1}X\right)^{-1}X'\Sigma^{-1}\right]' \\ \\ &=\sigma^2\left(X'\Sigma^{-1}X\right)^{-1} \ . \end{aligned} \](c) 设 \(b'Y\) 是 \(c'\beta\) 的任意线性无偏估计,对于正交变换后的模型,我们有
\[c'\beta^*=c'\left(U'U\right)^{-1}U'Z \ , \quad b'Y=b'\Sigma^{1/2}\Sigma^{-1/2}Y=b'\Sigma^{1/2}Z \ , \]即 \(c'\beta^*\) 为 \(c'\beta\) 的最小二乘估计,它是 \(c'\beta\) 的线性无偏估计,而 \(b'Y=b'\Sigma^{1/2}Z\) 也是 \(c'\beta\) 的线性无偏估计。所以对正交变换后的模型应用 Gauss-Markov 定理可知 \(c'\beta^*\) 是 \(c'\beta\) 的唯一最小方差线性无偏估计。
广义最小二乘估计最常见的应用场景就是因变量的不同观测具有异方差的情形,即
这里的 \(\sigma_i^2,\,i=1,2,\cdots,n\) 不全相等。记 \(x_1',x_2',\cdots,x_n'\) 分别是设计矩阵 \(X\) 的 \(n\) 个行向量,容易推出
两个和式分别为 \(x_ix_i'\) 和 \(x_iy_i\) 的权重为 \(1/\sigma_i^2\) 的加权和,故这里 \(\beta^*\) 也称为加权最小二乘估计 (WLSE) 。实际中的 \(\sigma_i^2\) 往往是未知的,这时我们需要设法求得它们的估计 \(\hat\sigma_i^2\) ,然后用 \(\hat\sigma_i^2\) 代替 \(\sigma_i^2\) 进行估计,这种估计方法称为两步估计。
3.7 多重共线性
3.7.1 多重共线性的定义
在之前的讨论中,最小二乘估计是需要假设设计矩阵 \(X\) 是列满秩的,即要求矩阵 \(X\) 的列向量之间是线性无关的。然而,实际问题中的自变量之间往往不是孤立的,而是相互联系的,这就会导致设计矩阵 \(X\) 的列向量不可能完全线性无关。这就是多重共线性问题。
-
完全共线性:若存在不全为 \(0\) 的 \(p+1\) 的常数 \(c_0,c_1,\cdots,c_p\) 使得
\[c_0+c_1x_{i1}+\cdots+c_px_{ip}=0 \ , \quad i=1,2,\cdots,n \ , \]则称自变量 \(x_1,x_2,\cdots,x_p\) 之间存在着完全共线性关系。
-
多重共线性:若存在不全为 \(0\) 的 \(p+1\) 的常数 \(c_0,c_1,\cdots,c_p\) 使得
\[c_0+c_1x_{i1}+\cdots+c_px_{ip}\approx0 \ , \quad i=1,2,\cdots,n \ , \]则称自变量 \(x_1,x_2,\cdots,x_p\) 之间存在着多重共线性关系。
对经济数据建模时,完全共线性关系并不多见,但多重共线性关系的情形则很常见。由于多重共线性会造成估计量方差的估计不准确,所以我们需要引入另一个评价估计量优劣的标准——均方误差。
设 \(\theta\) 为一个列向量,\(\hat\theta\) 为 \(\theta\) 的一个估计,定义 \(\hat\theta\) 的均方误差为
定理 3.7.1:均方误差满足如下公式:
不难看出
\[\begin{aligned} {\rm MSE}(\hat\theta)&={\rm E}\left[(\hat\theta-\theta)'(\hat\theta-\theta)\right] \\ \\ &={\rm E}\left[\hat\theta-{\rm E}(\hat\theta)+{\rm E}(\hat\theta)-\theta\right]'\left[\hat\theta-{\rm E}(\hat\theta)+{\rm E}(\hat\theta)-\theta\right] \\ \\ &={\rm E}\left[\left(\hat\theta-{\rm E}(\hat\theta)\right)'\left(\hat\theta-{\rm E}(\hat\theta)\right)\right]+{\rm E}\left[\left({\rm E}(\hat\theta)-\theta\right)'\left({\rm E}(\hat\theta)-\theta\right)\right] \\ \\ &\xlongequal{def}\Delta_1+\Delta_2 \ . \end{aligned} \]利用矩阵的迹的性质,
\[\begin{aligned} \Delta_1&={\rm E}\left\{{\rm tr}\left[\left(\hat\theta-{\rm E}(\hat\theta)\right)'\left(\hat\theta-{\rm E}(\hat\theta)\right)\right]\right\} \\ \\ &={\rm E}\left\{{\rm tr}\left[\left(\hat\theta-{\rm E}(\hat\theta)\right)\left(\hat\theta-{\rm E}(\hat\theta)\right)'\right]\right\} \\ \\ &={\rm tr}\left[{\rm E}\left(\hat\theta-{\rm E}(\hat\theta)\right)\left(\hat\theta-{\rm E}(\hat\theta)\right)'\right]={\rm tr}\left[{\rm Cov}(\hat\theta)\right] \ . \\ \\ \Delta_2&={\rm E}\left[\left({\rm E}(\hat\theta)-\theta\right)'\left({\rm E}(\hat\theta)-\theta\right)\right]=\left\|{\rm E}(\hat\theta)-\theta\right\|^2 \ . \end{aligned} \]后者是显然的,定理证毕。
若记 \(\hat\theta=(\hat\theta_1,\hat\theta_2,\cdots,\hat\theta_{p})'\) ,则有
即 \(\Delta_1\) 是 \(\hat\theta\) 的各个分量的方差之和,而 \(\Delta_2\) 是 \(\hat\theta\) 的各个分量的偏差平方和。所以,一个估计的均方误差由它的方差和偏差平方所决定。一个好的估计应该有较小的方差和偏差平方。
定理3.7.2:在线性回归模型中,对 \(\beta\) 的最小二乘估计 \(\hat\beta\) 有
其中 \(\lambda_1,\lambda_2,\cdots,\lambda_{p+1}>0\) 为对称正定矩阵 \(X'X\) 的特征根。
(1) 因为 \(\hat\beta\) 是无偏估计,所以 \(\Delta_2=0\) ,于是
\[{\rm MSE}(\hat\beta)=\Delta_1={\rm tr}\left[{\rm Cov}(\hat\beta)\right]=\sigma^2{\rm tr}\left[\left(X'X\right)^{-1}\right] \ . \]因为 \(X'X\) 是对称正定矩阵,所以存在正交阵 \(P\) 使得
\[X'X=P{\rm diag}\left(\lambda_1,\lambda_2,\cdots,\lambda_{p+1}\right)P' \ , \]其中 \(\lambda_1,\lambda_2,\cdots,\lambda_{p+1}>0\) 为 \(X'X\) 的特征根,所以有
\[\left(X'X\right)^{-1}=P{\rm diag}\left(\frac1{\lambda_1},\frac1{\lambda_2},\cdots,\frac1{\lambda_{p+1}}\right)P' \ . \]利用矩阵的迹的性质可得
\[{\rm tr}\left[\left(X'X\right)^{-1}\right]={\rm tr}\left[{\rm diag}\left(\frac1{\lambda_1},\frac1{\lambda_2},\cdots,\frac1{\lambda_{p+1}}\right)\right]=\sum_{i=1}^{p+1}\frac{1}{\lambda_i} \ . \]所以证得
\[{\rm MSE}(\hat\beta)=\sigma^2\sum_{i=1}^{p+1}\frac1{\lambda_i} \ . \](2) 根据均方误差的定义可得
\[\begin{aligned} {\rm MSE}(\hat\beta)&={\rm E}\left[(\hat\beta-\beta)'(\hat\beta-\beta)\right] \\ \\ &={\rm E}\left[\hat\beta'\hat\beta-2\beta'\hat\beta+\beta'\beta\right] \\ \\ &={\rm E}\left\|\hat\beta\right\|^2-\|\beta\|^2 \ , \end{aligned} \]于是有
\[{\rm E}\left\|\hat\beta\right\|^2=\|\beta\|^2 +{\rm MSE}(\hat\beta)=\|\beta\|^2 +\sigma^2\sum_{i=1}^{p+1}\frac1{\lambda_i} \ . \]
结论 (1) 说明,如果 \(X'X\) 至少有一个非常小的特征根,即非常接近于 \(0\) ,则 \({\rm MSE}(\hat\beta)\) 就会很大,此时最小二乘估计 \(\hat\beta\) 就不是一个很好的估计。这和 Gauss-Markov 定理并不矛盾,因为 Gauss-Markov 定理中的最小方差性仍然成立,只不过此时这个最小的方差本身就很大,因而导致了很大的均方误差。
结论 (2) 说明,如果 \(X'X\) 至少有一个非常小的特征根,则最小二乘估计 \(\hat\beta\) 的长度的平均值就要比真正的 \(\beta\) 的长度长很多,这就导致了 \(\hat\beta\) 的某些分量的绝对值被过度高估。
那么问题来了,如果 \(X'X\) 至少有一个非常小的特征根,这和多重共线性有什么关系呢?
设 \(X=\left(\boldsymbol 1_n,x_1,x_2,\cdots,x_p\right)\) ,即 \(x_i\) 表示 \(X\) 的第 \(i+1\) 列。设 \(\lambda\) 为 \(X'X\) 的一个特征根,\(\phi\) 为其对应的特征向量,不妨设其长度为 \(1\) ,即 \(\phi'\phi=1\) 。且根据特征根的性质有 \(X'X\phi=\lambda\phi\) 。
若 \(\lambda\approx0\) ,则有
于是 \(X\phi\approx0\) 。记 \(\phi=\left(c_0,c_1,\cdots,c_p\right)'\) ,则有
即设计矩阵 \(X\) 的列向量之间具有多重共线性。
反之,若设计矩阵 \(X\) 的列向量之间具有多重共线性,此时 \(X'X\) 仍是正定矩阵,但 \(\left|X'X\right|\approx0\) ,由此可知
所以 \(X'X\) 至少有一个非常小的特征根,接近于 \(0\) 。
综上所述,\(X'X\) 至少有一个非常小的特征根与 \(X\) 的列向量之间具有多重共线性是等价的,这时称设计矩阵 \(X\) 为病态矩阵。
3.7.2 多重共线性的诊断
以上我们介绍了多重共线性的定义,以及多重共线性下设计矩阵 \(X\) 的特征。注意到,一个回归模型是否具有多重共线性与被解释变量 \(Y\) 是无关的,因此我们可以通过设计矩阵 \(X\) 的某些特征对多重共线性进行诊断。
(1) 方差膨胀因子诊断法
这种方法从多重共线性的自变量之间具有线性相关性的角度出发,记 \(R_j^2\) 为自变量 \(x_j\) 对其余 \(p-1\) 个自变量的判定系数,定义方差膨胀因子为
由于 \(R_j^2\) 度量了自变量 \(x_j\) 对其余 \(p-1\) 个自变量之间的线性相关程度,若 \(x_1,x_2,\cdots,x_p\) 之间的多重共线性越严重,\(R_j^2\) 就越接近于 \(1\) ,此时 \({\rm VIF}_j\) 也就越大。因此,用 \({\rm VIF}\) 来度量多重共线性是合理的。
度量的准则:当有某个 \({\rm VIF}_j\geq10\) 或者当
我们认为自变量之间存在严重的多重共线性。
(2) 特征根与条件数诊断法
这种方法从多重共线性等价于 \(X'X\) 至少有一个非常小的特征根的角度出发。为消除量纲的影响,我们假设自变量与因变量的观测值均已标准化。此时可以认为线性回归模型没有截距项,且设计矩阵 \(X\) 是 \(n\times p\) 的矩阵,\(X'X\) 是 \(p\) 个自变量的样本相关系数矩阵。
特征根诊断法:如果 \(X'X\) 有 \(m\) 个特征根近似为 \(0\) ,那么 \(X\) 就有 \(m\) 个多重共线性关系,并且这 \(m\) 个多重共线性关系的系数向量就是这 \(m\) 个接近于 \(0\) 的特征根所对应的标准正交化特征向量。
条件数诊断法:假设 \(X'X\) 的 \(p\) 个特征根分别为 \(\lambda_1,\lambda_2,\cdots,\lambda_p\) ,其中最大特征根为 \(\lambda_{\max}\) ,最小特征根为 \(\lambda_{\min}\) ,定义特征根 \(\lambda_j\) 的条件数为
我们可以用最大条件数来度量矩阵 \(X'X\) 的特征根的散布程度,即定义
它可以用来近似衡量最小特征根接近 \(0\) 的程度,因此可以用来判断是否具有多重共线性,以及度量多重共线性的严重程度。条件数判断准则为
- 若 \(0<\kappa<100\) ,则认为不存在多重共线性;
- 若 \(100<\kappa<1000\) ,则认为存在较强的多重共线性;
- 若 \(\kappa>1000\) ,则认为存在严重的多重共线性。
消除多重共线性的方法主要包括两个,一是通过增加样本容量,以消除或缓解自变量之间的线性相关性;二是牺牲最小二乘估计的无偏性,寻找能够有效降低均方误差的有偏估计。