计量经济学复习笔记(七):推翻经典假设

本章中,我们将给出OLS估计量\(\hat\beta\)是BLUE的证明,并且说明经典假设对BLUE性具有什么样的影响。在此之前,要回顾经典假设的内容。

  1. 回归模型是正确设定的。
  2. 解释变量\(X_1,X_2,\cdots,X_k\)在所抽取的样本中具有变异性,且不存在严格线性相关性。
  3. 随机干扰项是条件零均值的。
  4. 随机干扰项是条件同方差的。
  5. 随机干扰项不序列相关。

在此基础上,得到OLS估计量为

\[\hat\beta=(X'X)^{-1}(X'Y), \]

它是最小方差线性无偏估计。注意,这里没有要求各随机误差项服从正态分布。

1、BLUE性的证明

为发挥经典假设的作用,要从\(\hat\beta\)的来源说起。我们在第四篇笔记中已经得到了\(\hat\beta\)的表达式,具体说来,它是使得残差平方和最小的\(\beta\)值。

\[\begin{aligned} Q=&(Y-X\hat\beta)'(Y-X\hat\beta)\\ =&Y'Y-2Y'X\hat\beta+\hat\beta'X'X\hat\beta,\\ \frac{\partial Q}{\partial \hat\beta}=&-2X'Y+2X'X\hat\beta=0, \end{aligned} \]

至此,我们得到一个等式:

\[X'Y=X'X\hat\beta. \]

要从中解出\(\hat\beta\),需要用到一个性质:\(X'X\)是可逆的,这就要求\(X\)不存在严格的多重共线性。此时

\[\hat\beta=(X'X)^{-1}(X'Y). \]

这就说明\(\hat\beta\)是线性的。接下来验证其无偏性,计算其期望:

\[\begin{aligned} \mathbb{E}(\hat\beta)=&\mathbb{E}[(X'X)^{-1}X'(X\beta+\mu)]\\ =&\beta+(X'X)^{-1}X'\mathbb{E}(\mu). \end{aligned} \]

如果要使得\(\mathbb{E}(\hat\beta)\)是无偏的,则要求\(\mathbb{E}(\mu)=0\),这用到了随机干扰项的条件零均值性。

为了验证其有效性,先计算其方差,为

\[\begin{aligned} \mathbb{D}(\hat\beta)=&\mathbb{D}[(X'X)^{-1}X'\mu]\\ =&(X'X)^{-1}X'\mathbb{D}(\mu)X(X'X)^{-1}. \end{aligned} \]

如果随机干扰项满足条件同方差性,就有\(\mathbb{D}(\mu)=\sigma^2I_n\),此时

\[\mathbb{D}(\hat\beta)=\sigma^2(X'X)^{-1}. \]

可以看出,只有当随机干扰项的同方差性与序列不相关性被满足,\(\hat\beta\)的方差才具有如此简洁的形式,否则接下来对方差的讨论就没有意义。并且可以看出,如果\(X\)具有近似的多重共线性,\(X'X\)的某些特征值就会接近0,求逆后其对角线元素就会很大,导致\(\mathbb{D}(\hat\beta)\)的对角线元素——各个\(\beta_i\)的方差很大,使得估计的精度变小;不仅如此,放大的区间估计还容易导致\(0\)落入置信区间,从而导致解释变量被错误排除在外。

接下来,在满足条件同方差性和序列不相关性的前提(即\(\mathbb{D}(\mu)=\sigma^2I_n\))下,证明\(\hat\beta\)的有效性,这一性质也被表述为高斯-马尔科夫定理。假设还有其他线性无偏估计量,不妨记作

\[\hat\beta^*=[(X'X)^{-1}X'+D]Y,\quad D_{(k+1)\times n}. \]

则由无偏性得到

\[\mathbb{E}(\hat\beta^*)=\beta+\mathbb{E}(DY)=\beta+\mathbb{E}[D(X\beta+\mu)]=(I_{k+1}+DX)\beta=\beta. \]

这里又用到了\(\mu\)的条件零均值性。由于\(\beta\)是未知的,所以\(DX=O\)。此时

\[\begin{aligned} \mathbb{D}(\hat\beta^*)=&\mathbb{D}(\hat\beta+DY)\\ =&\mathbb{D}(\hat\beta)+\mathbb{D}(DY)+2{\rm COV}(\hat\beta,DY)\\ =&\mathbb{D}(\hat\beta)+\mathbb{D}(DY)+2(X'X)^{-1}X'\mathbb{D}(Y)D'\\ \stackrel{*}=&\mathbb{D}(\hat\beta)+\mathbb{D}(D\mu)+2\sigma^2(X'X)^{-1}(DX)'\\ =&\mathbb{D}(\hat\beta)+\mathbb{D}(D\mu). \end{aligned} \]

注意到星号步骤运用了\(\mathbb{D}(\mu)=\sigma^2I_n\)。由自协方差矩阵的非负定性,有\(\mathbb{D}(\hat\beta^*)\ge \mathbb{D}(\hat\beta)\),这就证明了\(\hat\beta\)是有效的。可以看出,关于随机误差项的假设在\(\hat\beta\)的得出,以及BLUE性的证明上具有重要作用。如果这些假设不成立,会怎样呢?

2、放宽经典假设

不幸的是,在实际模型中,有些假设是不成立的。书上列举了一些违背基本假定的情形:

  1. 解释变量之间存在严重多重共线性。
  2. 随机干扰项序列存在异方差性。
  3. 解释变量具有内生性。
  4. 模型有设定偏误。
  5. 随机干扰项具有序列相关性。

由于我们回顾了\(\hat\beta\)的来源以及BLUE性的证明,以下讨论也变得比较简单。接下来的内容大多是课本内容的提炼,可作复习用。

多重共线性

多重共线性定义:对于模型

\[Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\cdots+\beta_kX_{ik}+\mu_i, \]

如果某两个或多个解释变量之间出现相关性,则称为存在多重共线性。具体还可以分为完全共线性与近似共线性。

  • 如果某一个变量能完全由其他解释变量线性表示,则称为存在完全共线性,此时\(r(X)<k+1\)
  • 如果存在\(c_1X_{i1}+c_2X_{i2}+\cdots+c_kX_{ik}+\upsilon_i=0\),其中\(c_i\)不全为0,\(\upsilon_i\)为随机干扰项,则称为存在近似共线性。

如果是完全共线性的,则\(r(X'X)<k+1\),不可逆,也就不存在参数估计量;如果近似共线性,则\((X'X)^{-1}\)的对角线元素将会很大,也就增大了各个模型系数\(\beta_i\)的方差,使得变量的显著性检验、模型的预测功能失去意义。

要检验多重共线性是否存在,即检验多重共线性由哪些变量引起,这里介绍一种方法:判定系数检验法。

对每一个解释变量\(X_j\),用其他的解释变量对它作回归,计算相应的拟合优度(此时称为判定系数)\(R_j^2\)。如果\(X_j\)的判定系数\(R_j^2\)很大,说明其他解释变量可以很好地线性表示这个解释变量,自然存在多重共线性,与之关联的一个统计量称为“方差膨胀因子(VIF)”,其计算方式是

\[{\rm VIF}_j=\frac{1}{1-R_j^2}. \]

显然,\({\rm VIF}_j\)越大,\(R_j^2\)越大,所以可以用VIF来评判某个变量的多重共线性效果。如果要给出一个严格的判定标准,可以对每一个回归方程作\(F\)检验,即构造如下的参数统计量:

\[F_j=\frac{R_j^2/(k-1)}{{(1-R_j^2)}/(n-k)}\sim F(k-1,n-k). \]

异方差性

异方差性定义:对于不同的样本点\((X_{i1},\cdots,X_{ik},Y_i)\),随机干扰项方差不再是常数,而是互不相同的\(\sigma_i^2\)

如果存在异方差性,则\(\mathbb{D}(\mu)\)退化成一个普通的对角矩阵(而不是单位阵),这就导致\(\mathbb{D}(\hat\beta)\)没有很好的表达形式,同时,有效性的证明中\((*)\)处等号不能被满足,从而失去有效性。失去有效性,还会导致变量的显著性显著失去意义(因为估计的\(\mathbb{D}(\hat\beta)\ne\sigma^2(X'X)^{-1}\),实际应用时用\(\hat\sigma^2\)代替),模型的预测功能失效。

异方差性的检验有BP检验和White检验两种,它们的思想都是将模型的随机干扰项的平方视为解释变量的函数,不同的是BP检验只考虑了线性函数,而White检验追加考虑了二次函数。具体操作为:

  1. 对原模型:\(Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\cdots+\beta_kX_{ik}+\mu_i\)使用OLS回归,计算残差项\(e_i\)

  2. 构造辅助线性回归:\(e_i^2=f(X_{i1},\cdots,X_{ik})+\varepsilon_i\),这里BP检验与White检验具有不同的形式:

    \[\text{B-P检验:}f=\delta_0+\delta_1X_{i1}+\delta_2X_{i2}+\cdots+\delta_kX_{ik},\\ \text{White检验:}f=\delta_0+\sum_{t=1}^k\delta_tX_{it}+\sum_{j,l=1}^k\delta_{jl}X_{ij}X_{il}. \]

  3. 计算得到辅助线性回归的系数矩阵,计算回归判定系数\(R_{e^2}^2\)

  4. 构造假设检验,对不同的检验有不同的假设检验形式:

    \[\text{B-P检验:}H_0:\delta_1=\delta_2=\cdots=\delta_k=0,\\ \text{White检验:}H_0:\delta_1=\cdots=\delta_k=\delta_{11}=\cdots=\delta_{kk}=0. \]

  5. 构造检验\(F\)统计量或拉格朗日统计量\(LM=nR_{e^2}^2\)

异方差性可以用加权最小二乘(WLS)或异方差稳健标准误法,其中异方差稳健标准误法,指的是用OLS估计得到的\(e_i^2\),作为相应\(\sigma_i^2\)的代表,再计算\(\mathbb{D}(\hat\beta)\)。此时,称

\[\sqrt{\mathbb{D}(\hat\beta)_{ii}} \]

\(\hat\beta_i\)的异方差稳健标准误。

内生解释变量

内生解释变量定义:如果随机干扰项的条件零均值假设不成立,则称为内生解释变量,或解释变量具有内生性。如果存在一个或多个随机变量是内生解释变量,则称原模型存在内生解释变量问题。现假设模型为\(Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\cdots+\beta_kX_{ik}+\mu_i\),其中\(X_2\)是内生解释变量。

  • 同期无关但异期相关:\(\mathbb{E}(X_{i2}\mu_i)=0\),但对于\(s\ne 0\)\(\mathbb{E}(X_{i2}\mu_{i-s})\ne 0\)
  • 同期相关:\(\mathbb{E}(X_{i2}\mu_i)\ne 0\),这是截面数据模型中,内生性的主要表现。

内生解释变量导致\(\mathbb{E}(\mu)\ne 0\),因此参数估计量不是无偏估计量,从而也不是一致的。如果无偏性得不到保证,也不用进一步讨论最小方差线性无偏估计了,因此内生解释变量导致的问题,比近似共线性、异方差性导致的问题还大。

我们希望,即使有效性得不到满足,至少参数估计量是无偏的,或者再退而求其次,是渐进无偏且相合的,这样,样本量足够大时,依然能精准地估计参数。

按照教材所说,工具变量法是最常用的,能得到大样本下的一致估计量的方法。此时,我们需要寻找到一个变量\(Z\),它与所替代的随机解释变量\(X_2\)高度相关,却与随机干扰项不相关,最好还和模型中的其他解释变量不高度相关(避免出现严重的共线性),即

\[{\rm Cov}(Z,X_2)\ne0,\quad {\rm Cov}(Z,\mu)=0. \]

\(Z\)代替\(X_2\)后得到的工具变量矩阵(依然记作\(Z\),注意区分)为

\[Z=\begin{bmatrix} 1 & X_{11} & Z_1 & \cdots & X_{1k} \\ 1 & X_{21} & Z_2 & \cdots & X_{2k} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & X_{n1} & Z_n & \cdots & X_{nk} \end{bmatrix}. \]

原有系数矩阵依然记作\(Z\),则按照工具变量法得到的参数估计量为

\[\tilde \beta=(Z'X)^{-1}Z'Y. \]

在小样本下,\(\tilde \beta\)是有偏估计,但在大样本下是相合的。

如果关于一个内生变量\(X_2\)找到了多个工具变量\(Z_1,Z_2\),则可以使用两阶段最小二乘法(2SLS)。假设原有的方程是\(Y_i=\beta_0+\beta_1X_{i}+\beta_2Z_i+\mu_i\)其步骤是:

  1. 第一阶段,用\(Z_1\)\(Z_2\)以及原有的外生变量\(Z\)来拟合\(X\),得到第一阶段回归方程:

    \[\hat X_{i}=\hat a_0+\hat a_1Z_{i1}+\hat a_2Z_{i2}+\hat a_3Z_i. \]

  2. 第二阶段,用第一阶段得到的\(\hat X_i\)代替\(X_i\),得到第二阶段回归方程:

    \[Y_i=\beta_0+\beta_1\hat X_{i2}+\beta_2Z_i+\mu_i\\ \Downarrow \\ \hat Y_i=\hat\beta_0+\hat\beta_1\hat X_i+\hat\beta_2Z_i. \]

内生性检验:使用Hausman检验,对于线性回归模型\(Y_i=\beta_0+\beta_1X_i+\beta_2Z_{i1}+\mu_i\),如果明确知道\(Z_1\)已知,但怀疑\(X\)是同期内生的,则豪斯曼检验的步骤为:

  1. 寻找一个外生变量\(Z_2\)作为工具变量,将怀疑是内生变量的\(X\),关于\(Z_1,Z_2\)作OLS估计:

    \[X_i=\alpha_0+\alpha_1Z_{i1}+\alpha_2Z_{i2}+\upsilon_i. \]

    得到残差项\(\hat\upsilon_i\)

  2. 将残差项加入原模型,进行OLS估计:

    \[Y_i=\beta_0+\beta_1X_{i}+\beta_2Z_{i1}+\delta\hat\upsilon_i+\varepsilon_t. \]

  3. 检验假设\(H_0:\delta=0\),如果认为\(\delta=0\),就认为\(X\)是同期外生变量;否则认为\(X\)是同期内生变量。

模型设定偏误

模型设定偏误的分类:一类是关于解释变量选取的偏误(遗漏相关变量,误选无关变量),另一类是关于模型函数形式选取的偏误(错误函数形式)。

遗漏相关变量的后果:

  • 导致OLS估计量在小样本下有偏,大样本下不一致。
  • 如果遗漏变量\(X_2\)与考虑的变量\(X_1\)无关,则\(X_1\)的模型参数估计量无偏且一致,但是截距项会有偏且不一致。
  • 随机干扰项的方差估计也是有偏的。
  • 不管遗漏变量\(X_2\)\(X_1\)关系如何,模型参数估计量的方差估计都是有偏的(这里指偏离正确模型参数估计的方差)。

包含无关变量的后果:

  • 仍然是无偏且一致的,但往往是无效的,即方差会偏大。
  • 随机干扰项的方差能被正确估计。

错误函数形式的后果:全方位后果。

序列相关性

序列相关性主要出自时间序列模型,指的是模型的随机干扰项不再是相互独立的。这种序列相关性可能产生于经济变量的固有惯性、模型的设定偏误、数据的“编造”(其实是生成),并且往往都是存在的。

由我们之前的讨论,序列相关性也会导致\(\mathbb{D}(\mu)\)不再是单位矩阵,并且甚至不再是对角矩阵,因此也会导致参数估计量失去有效性,模型的检验和预测功能失去意义。

序列相关性的检验:使用DW检验,它假定

  • 解释变量\(X\)非随机
  • 随机干扰项\(\mu\)是一阶自回归的(\(\mu_t=\rho\mu_{t-1}+\varepsilon_t\)
  • 回归模型中不包含滞后被解释变量
  • 回归模型含有截距项

在此基础上,检验假设\(H_0:\rho=0\),如果\(H_0\)成立,就不存在一阶自回归。为了执行假设,构造DW统计量为

\[{\rm DW}=\frac{\sum_{t=2}^n(e_t-e_{t-1})^2}{\sum_{t=1}^n e_t^2}\approx 2(1-\rho). \]

如果\({\rm DW}\)统计量在2附近,就认为模型不存在一阶自相关,具体的相关情况需要考虑两个临界值\(d_L,d_U\),根据\({\rm DW}\)的值来判断相关情况:

image-20210123153121163


至此,本系列的计量经济学学习笔记就完结了。本系列笔记的重点在于第二、三章的线性回归模型部分,包含了许多在实际应用中并不必要的数理推导,但这对结论的理解、记忆很有帮助,感兴趣的读者可以自行尝试。此外,对于第四章之后的内容,由于考试要求较低,在我们的笔记中提及得也极为简略,如果想进一步学习,需要参考更多教材。

接下来如果有时间,可能会出一篇关于概念解释的笔记。

posted @ 2021-01-23 15:42  江景景景页  阅读(2879)  评论(0编辑  收藏  举报