计量经济学复习笔记（七）：推翻经典假设

本章中，我们将给出OLS估计量\(\hat\beta\)是BLUE的证明，并且说明经典假设对BLUE性具有什么样的影响。在此之前，要回顾经典假设的内容。

回归模型是正确设定的。
解释变量\(X_1,X_2,\cdots,X_k\)在所抽取的样本中具有变异性，且不存在严格线性相关性。
随机干扰项是条件零均值的。
随机干扰项是条件同方差的。
随机干扰项不序列相关。

在此基础上，得到OLS估计量为

\[\hat\beta=(X'X)^{-1}(X'Y), \]

它是最小方差线性无偏估计。注意，这里没有要求各随机误差项服从正态分布。

1、BLUE性的证明

为发挥经典假设的作用，要从\(\hat\beta\)的来源说起。我们在第四篇笔记中已经得到了\(\hat\beta\)的表达式，具体说来，它是使得残差平方和最小的\(\beta\)值。

\[\begin{aligned} Q=&(Y-X\hat\beta)'(Y-X\hat\beta)\\ =&Y'Y-2Y'X\hat\beta+\hat\beta'X'X\hat\beta,\\ \frac{\partial Q}{\partial \hat\beta}=&-2X'Y+2X'X\hat\beta=0, \end{aligned} \]

至此，我们得到一个等式：

\[X'Y=X'X\hat\beta. \]

要从中解出\(\hat\beta\)，需要用到一个性质：\(X'X\)是可逆的，这就要求\(X\)不存在严格的多重共线性。此时

\[\hat\beta=(X'X)^{-1}(X'Y). \]

这就说明\(\hat\beta\)是线性的。接下来验证其无偏性，计算其期望：

\[\begin{aligned} \mathbb{E}(\hat\beta)=&\mathbb{E}[(X'X)^{-1}X'(X\beta+\mu)]\\ =&\beta+(X'X)^{-1}X'\mathbb{E}(\mu). \end{aligned} \]

如果要使得\(\mathbb{E}(\hat\beta)\)是无偏的，则要求\(\mathbb{E}(\mu)=0\)，这用到了随机干扰项的条件零均值性。

为了验证其有效性，先计算其方差，为

\[\begin{aligned} \mathbb{D}(\hat\beta)=&\mathbb{D}[(X'X)^{-1}X'\mu]\\ =&(X'X)^{-1}X'\mathbb{D}(\mu)X(X'X)^{-1}. \end{aligned} \]

如果随机干扰项满足条件同方差性，就有\(\mathbb{D}(\mu)=\sigma^2I_n\)，此时

\[\mathbb{D}(\hat\beta)=\sigma^2(X'X)^{-1}. \]

可以看出，只有当随机干扰项的同方差性与序列不相关性被满足，\(\hat\beta\)的方差才具有如此简洁的形式，否则接下来对方差的讨论就没有意义。并且可以看出，如果\(X\)具有近似的多重共线性，\(X'X\)的某些特征值就会接近0，求逆后其对角线元素就会很大，导致\(\mathbb{D}(\hat\beta)\)的对角线元素——各个\(\beta_i\)的方差很大，使得估计的精度变小；不仅如此，放大的区间估计还容易导致\(0\)落入置信区间，从而导致解释变量被错误排除在外。

接下来，在满足条件同方差性和序列不相关性的前提（即\(\mathbb{D}(\mu)=\sigma^2I_n\)）下，证明\(\hat\beta\)的有效性，这一性质也被表述为高斯-马尔科夫定理。假设还有其他线性无偏估计量，不妨记作

\[\hat\beta^*=[(X'X)^{-1}X'+D]Y,\quad D_{(k+1)\times n}. \]

则由无偏性得到

\[\mathbb{E}(\hat\beta^*)=\beta+\mathbb{E}(DY)=\beta+\mathbb{E}[D(X\beta+\mu)]=(I_{k+1}+DX)\beta=\beta. \]

这里又用到了\(\mu\)的条件零均值性。由于\(\beta\)是未知的，所以\(DX=O\)。此时

\[\begin{aligned} \mathbb{D}(\hat\beta^*)=&\mathbb{D}(\hat\beta+DY)\\ =&\mathbb{D}(\hat\beta)+\mathbb{D}(DY)+2{\rm COV}(\hat\beta,DY)\\ =&\mathbb{D}(\hat\beta)+\mathbb{D}(DY)+2(X'X)^{-1}X'\mathbb{D}(Y)D'\\ \stackrel{*}=&\mathbb{D}(\hat\beta)+\mathbb{D}(D\mu)+2\sigma^2(X'X)^{-1}(DX)'\\ =&\mathbb{D}(\hat\beta)+\mathbb{D}(D\mu). \end{aligned} \]

注意到星号步骤运用了\(\mathbb{D}(\mu)=\sigma^2I_n\)。由自协方差矩阵的非负定性，有\(\mathbb{D}(\hat\beta^*)\ge \mathbb{D}(\hat\beta)\)，这就证明了\(\hat\beta\)是有效的。可以看出，关于随机误差项的假设在\(\hat\beta\)的得出，以及BLUE性的证明上具有重要作用。如果这些假设不成立，会怎样呢？

2、放宽经典假设

不幸的是，在实际模型中，有些假设是不成立的。书上列举了一些违背基本假定的情形：

解释变量之间存在严重多重共线性。
随机干扰项序列存在异方差性。
解释变量具有内生性。
模型有设定偏误。
随机干扰项具有序列相关性。

由于我们回顾了\(\hat\beta\)的来源以及BLUE性的证明，以下讨论也变得比较简单。接下来的内容大多是课本内容的提炼，可作复习用。

多重共线性

多重共线性定义：对于模型

\[Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\cdots+\beta_kX_{ik}+\mu_i, \]

如果某两个或多个解释变量之间出现相关性，则称为存在多重共线性。具体还可以分为完全共线性与近似共线性。

如果某一个变量能完全由其他解释变量线性表示，则称为存在完全共线性，此时\(r(X)<k+1\)。
如果存在\(c_1X_{i1}+c_2X_{i2}+\cdots+c_kX_{ik}+\upsilon_i=0\)，其中\(c_i\)不全为0，\(\upsilon_i\)为随机干扰项，则称为存在近似共线性。

如果是完全共线性的，则\(r(X'X)<k+1\)，不可逆，也就不存在参数估计量；如果近似共线性，则\((X'X)^{-1}\)的对角线元素将会很大，也就增大了各个模型系数\(\beta_i\)的方差，使得变量的显著性检验、模型的预测功能失去意义。

要检验多重共线性是否存在，即检验多重共线性由哪些变量引起，这里介绍一种方法：判定系数检验法。

对每一个解释变量\(X_j\)，用其他的解释变量对它作回归，计算相应的拟合优度（此时称为判定系数）\(R_j^2\)。如果\(X_j\)的判定系数\(R_j^2\)很大，说明其他解释变量可以很好地线性表示这个解释变量，自然存在多重共线性，与之关联的一个统计量称为“方差膨胀因子(VIF)”，其计算方式是

\[{\rm VIF}_j=\frac{1}{1-R_j^2}. \]

显然，\({\rm VIF}_j\)越大，\(R_j^2\)越大，所以可以用VIF来评判某个变量的多重共线性效果。如果要给出一个严格的判定标准，可以对每一个回归方程作\(F\)检验，即构造如下的参数统计量：

\[F_j=\frac{R_j^2/(k-1)}{{(1-R_j^2)}/(n-k)}\sim F(k-1,n-k). \]

异方差性

异方差性定义：对于不同的样本点\((X_{i1},\cdots,X_{ik},Y_i)\)，随机干扰项方差不再是常数，而是互不相同的\(\sigma_i^2\)。

如果存在异方差性，则\(\mathbb{D}(\mu)\)退化成一个普通的对角矩阵（而不是单位阵），这就导致\(\mathbb{D}(\hat\beta)\)没有很好的表达形式，同时，有效性的证明中\((*)\)处等号不能被满足，从而失去有效性。失去有效性，还会导致变量的显著性显著失去意义（因为估计的\(\mathbb{D}(\hat\beta)\ne\sigma^2(X'X)^{-1}\)，实际应用时用\(\hat\sigma^2\)代替），模型的预测功能失效。

异方差性的检验有BP检验和White检验两种，它们的思想都是将模型的随机干扰项的平方视为解释变量的函数，不同的是BP检验只考虑了线性函数，而White检验追加考虑了二次函数。具体操作为：

对原模型：\(Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\cdots+\beta_kX_{ik}+\mu_i\)使用OLS回归，计算残差项\(e_i\)。
构造辅助线性回归：\(e_i^2=f(X_{i1},\cdots,X_{ik})+\varepsilon_i\)，这里BP检验与White检验具有不同的形式：

\[\text{B-P检验：}f=\delta_0+\delta_1X_{i1}+\delta_2X_{i2}+\cdots+\delta_kX_{ik},\\ \text{White检验：}f=\delta_0+\sum_{t=1}^k\delta_tX_{it}+\sum_{j,l=1}^k\delta_{jl}X_{ij}X_{il}. \]
计算得到辅助线性回归的系数矩阵，计算回归判定系数\(R_{e^2}^2\)。
构造假设检验，对不同的检验有不同的假设检验形式：

\[\text{B-P检验：}H_0:\delta_1=\delta_2=\cdots=\delta_k=0,\\ \text{White检验：}H_0:\delta_1=\cdots=\delta_k=\delta_{11}=\cdots=\delta_{kk}=0. \]
构造检验\(F\)统计量或拉格朗日统计量\(LM=nR_{e^2}^2\)。

异方差性可以用加权最小二乘(WLS)或异方差稳健标准误法，其中异方差稳健标准误法，指的是用OLS估计得到的\(e_i^2\)，作为相应\(\sigma_i^2\)的代表，再计算\(\mathbb{D}(\hat\beta)\)。此时，称

\[\sqrt{\mathbb{D}(\hat\beta)_{ii}} \]

为\(\hat\beta_i\)的异方差稳健标准误。

内生解释变量

内生解释变量定义：如果随机干扰项的条件零均值假设不成立，则称为内生解释变量，或解释变量具有内生性。如果存在一个或多个随机变量是内生解释变量，则称原模型存在内生解释变量问题。现假设模型为\(Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\cdots+\beta_kX_{ik}+\mu_i\)，其中\(X_2\)是内生解释变量。

同期无关但异期相关：\(\mathbb{E}(X_{i2}\mu_i)=0\)，但对于\(s\ne 0\)，\(\mathbb{E}(X_{i2}\mu_{i-s})\ne 0\)。
同期相关：\(\mathbb{E}(X_{i2}\mu_i)\ne 0\)，这是截面数据模型中，内生性的主要表现。

内生解释变量导致\(\mathbb{E}(\mu)\ne 0\)，因此参数估计量不是无偏估计量，从而也不是一致的。如果无偏性得不到保证，也不用进一步讨论最小方差线性无偏估计了，因此内生解释变量导致的问题，比近似共线性、异方差性导致的问题还大。

我们希望，即使有效性得不到满足，至少参数估计量是无偏的，或者再退而求其次，是渐进无偏且相合的，这样，样本量足够大时，依然能精准地估计参数。

按照教材所说，工具变量法是最常用的，能得到大样本下的一致估计量的方法。此时，我们需要寻找到一个变量\(Z\)，它与所替代的随机解释变量\(X_2\)高度相关，却与随机干扰项不相关，最好还和模型中的其他解释变量不高度相关（避免出现严重的共线性），即

\[{\rm Cov}(Z,X_2)\ne0,\quad {\rm Cov}(Z,\mu)=0. \]

用\(Z\)代替\(X_2\)后得到的工具变量矩阵（依然记作\(Z\)，注意区分）为

\[Z=\begin{bmatrix} 1 & X_{11} & Z_1 & \cdots & X_{1k} \\ 1 & X_{21} & Z_2 & \cdots & X_{2k} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & X_{n1} & Z_n & \cdots & X_{nk} \end{bmatrix}. \]

原有系数矩阵依然记作\(Z\)，则按照工具变量法得到的参数估计量为

\[\tilde \beta=(Z'X)^{-1}Z'Y. \]

在小样本下，\(\tilde \beta\)是有偏估计，但在大样本下是相合的。

如果关于一个内生变量\(X_2\)找到了多个工具变量\(Z_1,Z_2\)，则可以使用两阶段最小二乘法(2SLS)。假设原有的方程是\(Y_i=\beta_0+\beta_1X_{i}+\beta_2Z_i+\mu_i\)其步骤是：

第一阶段，用\(Z_1\)、\(Z_2\)以及原有的外生变量\(Z\)来拟合\(X\)，得到第一阶段回归方程：

\[\hat X_{i}=\hat a_0+\hat a_1Z_{i1}+\hat a_2Z_{i2}+\hat a_3Z_i. \]
第二阶段，用第一阶段得到的\(\hat X_i\)代替\(X_i\)，得到第二阶段回归方程：

\[Y_i=\beta_0+\beta_1\hat X_{i2}+\beta_2Z_i+\mu_i\\ \Downarrow \\ \hat Y_i=\hat\beta_0+\hat\beta_1\hat X_i+\hat\beta_2Z_i. \]

内生性检验：使用Hausman检验，对于线性回归模型\(Y_i=\beta_0+\beta_1X_i+\beta_2Z_{i1}+\mu_i\)，如果明确知道\(Z_1\)已知，但怀疑\(X\)是同期内生的，则豪斯曼检验的步骤为：

寻找一个外生变量\(Z_2\)作为工具变量，将怀疑是内生变量的\(X\)，关于\(Z_1,Z_2\)作OLS估计：

\[X_i=\alpha_0+\alpha_1Z_{i1}+\alpha_2Z_{i2}+\upsilon_i. \]
得到残差项\(\hat\upsilon_i\)。
将残差项加入原模型，进行OLS估计：

\[Y_i=\beta_0+\beta_1X_{i}+\beta_2Z_{i1}+\delta\hat\upsilon_i+\varepsilon_t. \]
检验假设\(H_0:\delta=0\)，如果认为\(\delta=0\)，就认为\(X\)是同期外生变量；否则认为\(X\)是同期内生变量。

模型设定偏误

模型设定偏误的分类：一类是关于解释变量选取的偏误（遗漏相关变量，误选无关变量），另一类是关于模型函数形式选取的偏误（错误函数形式）。

遗漏相关变量的后果：

导致OLS估计量在小样本下有偏，大样本下不一致。
如果遗漏变量\(X_2\)与考虑的变量\(X_1\)无关，则\(X_1\)的模型参数估计量无偏且一致，但是截距项会有偏且不一致。
随机干扰项的方差估计也是有偏的。
不管遗漏变量\(X_2\)与\(X_1\)关系如何，模型参数估计量的方差估计都是有偏的（这里指偏离正确模型参数估计的方差）。

包含无关变量的后果：

仍然是无偏且一致的，但往往是无效的，即方差会偏大。
随机干扰项的方差能被正确估计。

错误函数形式的后果：全方位后果。

序列相关性

序列相关性主要出自时间序列模型，指的是模型的随机干扰项不再是相互独立的。这种序列相关性可能产生于经济变量的固有惯性、模型的设定偏误、数据的“编造”（其实是生成），并且往往都是存在的。

由我们之前的讨论，序列相关性也会导致\(\mathbb{D}(\mu)\)不再是单位矩阵，并且甚至不再是对角矩阵，因此也会导致参数估计量失去有效性，模型的检验和预测功能失去意义。

序列相关性的检验：使用DW检验，它假定

解释变量\(X\)非随机
随机干扰项\(\mu\)是一阶自回归的（\(\mu_t=\rho\mu_{t-1}+\varepsilon_t\)）
回归模型中不包含滞后被解释变量
回归模型含有截距项

在此基础上，检验假设\(H_0:\rho=0\)，如果\(H_0\)成立，就不存在一阶自回归。为了执行假设，构造DW统计量为

\[{\rm DW}=\frac{\sum_{t=2}^n(e_t-e_{t-1})^2}{\sum_{t=1}^n e_t^2}\approx 2(1-\rho). \]

如果\({\rm DW}\)统计量在2附近，就认为模型不存在一阶自相关，具体的相关情况需要考虑两个临界值\(d_L,d_U\)，根据\({\rm DW}\)的值来判断相关情况：

至此，本系列的计量经济学学习笔记就完结了。本系列笔记的重点在于第二、三章的线性回归模型部分，包含了许多在实际应用中并不必要的数理推导，但这对结论的理解、记忆很有帮助，感兴趣的读者可以自行尝试。此外，对于第四章之后的内容，由于考试要求较低，在我们的笔记中提及得也极为简略，如果想进一步学习，需要参考更多教材。

接下来如果有时间，可能会出一篇关于概念解释的笔记。

posted @ 2021-01-23 15:42 江景景景页阅读(2879) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

江景景景页