计量经济学复习笔记(四):多元线性回归

一元线性回归的解释变量只有一个,但是实际的模型往往没有这么简单,影响一个变量的因素可能有成百上千个。我们会希望线性回归模型中能够考虑到这些所有的因素,自然就不能再用一元线性回归,而应该将其升级为多元线性回归。但是,有了一元线性回归的基础,讨论多元线性回归可以说是轻而易举。

另外我们没必要分别讨论二元、三元等具体个数变量的回归问题,因为在线性代数的帮助下,我们能够统一讨论对任何解释变量个数的回归问题。

1、多元线性回归模型的系数求解

多元线性回归模型是用\(k\)个解释变量\(X_1,\cdots,X_k\)对被解释变量\(Y\)进行线性拟合的模型,每一个解释变量\(X_i\)之前有一个回归系数\(\beta_i\),同时还应具有常数项\(\beta_0\),可以视为与常数\(X_0=1\)相乘,所以多元线性回归模型为

\[Y=\beta_0X_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_kX_k+\mu, \tag{4.1} \]

这里的\(\mu\)依然是随机误差项。从线性回归模型中抽取\(n\)个样本构成\(n\)个观测,排列起来就是

\[\begin{matrix} Y_1=\beta_0X_{10}+\beta_1X_{11}+\beta_2X_{12}+\cdots+\beta_kX_{1k}+\mu_1,\\ Y_2=\beta_0X_{20}+\beta_1X_{21}+\beta_2X_{22}+\cdots+\beta_kX_{2k}+\mu_2, \\ \vdots \\ Y_n=\beta_0X_{n0}+\beta_1X_{n1}+\beta_2X_{n2}+\cdots+\beta_kX_{nk}+\mu_n.\end{matrix}\tag{4.2} \]

其中\(X_{10}=X_{20}=\cdots=X_{n0}=1\)。大型方程组我们会使用矩阵表示,所以引入如下的矩阵记号。

\[{Y=\begin{bmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{bmatrix},\quad \beta=\begin{bmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \end{bmatrix}, \mu=\begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{bmatrix}.\\ X=\begin{bmatrix} X_{10} & X_{11} & X_{12} & \cdots & X_{1k} \\ X_{20} & X_{21} & X_{22} & \cdots & X_{2k} \\ \vdots & \vdots & \vdots & & \vdots \\ X_{n0} & X_{n1} & X_{n2} & \cdots & X_{nk} \end{bmatrix}. } \tag{4.3} \]

在这些矩阵表示中注意几点:首先,\(Y\)\(\mu\)在矩阵表示式中都是\(n\)维列向量,与样本容量等长,在线性回归模型中\(Y,\mu\)是随机变量,而在矩阵表示中它们是随机向量,尽管我们不在表示形式上加以区分,但我们应该根据上下文明确它们到底是什么意义;\(\beta\)\(k+1\)维列向量,其长度与\(Y,\mu\)没有关系,这是因为\(\beta\)是依赖于变量个数的,并且加上了对应于常数项的系数(截距项)\(\beta_0\);最后,\(X\)是数据矩阵,且第一列都是1。在这些矩阵的定义下,多元线性回归模型的观测值们可以表示为

\[Y=X\beta+\mu.\tag{4.4} \]

我们的目标是求得\(\beta\)的估计\(\hat\beta\),与一元线性回归一样,虽然\(Y,X\)都是随机变量,但我们需要的是给定\(X\)时的条件分布。此时依然使用OLS估计,设\(\beta\)的估计量为\(\hat\beta\),则残差向量是\(e=Y-X\hat\beta\),残差平方和为\(Q=e'e\)。为使残差平方和最小,需要对\(\hat\beta\)求偏导,即

\[\begin{aligned} \frac{\partial Q}{\partial \hat\beta}=&\frac{\partial}{\partial\hat\beta}(e'e)\\ =&\frac{\partial}{\partial\hat\beta}[(Y-X\hat\beta)'(Y-X\hat\beta)]\\ =&\frac{\partial}{\partial\hat\beta}[Y'Y-\hat\beta' X'Y-Y'X\hat\beta+\hat\beta'X'X\hat\beta]\\ =&2(X'X\hat\beta-X'Y)=0. \end{aligned}\tag{4.5} \]

于是

\[X'X\hat\beta=X'Y,\tag{4.6} \]

\(X'X\)可逆,则

\[\hat\beta=(X'X)^{-1}X'Y.\tag{4.7} \]

这样我们就得到了\(\beta\)的参数估计量\(\hat\beta\)。顺带一提,由于我们将\(Q\)表现为矩阵乘积的形式,所以对\(\hat\beta\)求偏导也能得到\(Q\)的最小值,事实上对\(\hat\beta\)求矩阵微商的过程,等价于对\(\hat\beta\)中的每一个分量\((\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_k)\)求偏导,然后将每一个偏导的结果按列排布,这样令矩阵微商为0,就等价于每一个偏导数为0。这里用到的矩阵微商公式有以下两个:

\[\frac{\partial x'b}{\partial x}=\frac{\partial b'x}{x}=b,\frac{\partial x'Ax}{x}=(A+A')x.\tag{4.8} \]

当然,我们不能忽略这样一个事实:想要得到这样的OLS估计量必须有\(X'X\)可逆,但是\(X'X\)在什么情况下可逆?注意到\(X\)是一个\(n\times(k+1)\)型矩阵,\(X'X\)是一个\(k+1\)阶方阵,要使其可逆,则\(X'X\)满秩,也就是\(r(X'X)=k+1\)。由于\(r(X'X)\le r(X)\le\min(n,k+1)\),所以\(X'X\)要满秩,有以下的必要条件:

  1. \(n\ge k+1\),也就是样本观测数不小于\(k+1\)
  2. \(r(X)=k+1\),也就是\(X\)的列向量组必须线性无关。

现在,我们已经认识到\(X\)的列向量组应当无关,也就是\((X_1,\cdots,X_k)\)不线性相关这一基本假设需要被满足。进一步地,我们应该开始认识线性回归模型的基本假设了,我们所说的OLS估计量的优秀性质,全部依赖于线性回归模型的基本假设,如果基本假设无法被满足,我们的OLS估计量就会失去很多效果。

2、线性回归模型的基本假设

在一元线性回归模型中,我们只粗糙地提到了以下的假设:随机误差项条件零均值同方差、随机误差项条件序列不相关、任意随机误差项与解释变量不相关,以及随机误差项服从条件正态分布。事实上,一元线性回归模型的基本假设不止以上几条,它与多元线性回归模型的基本假设一致,有以下几条。

  1. 回归模型是正确假定的。

  2. 解释变量\(X_1,\cdots,X_k\)在所抽取的样本中具有变异性(独立同分布),且不存在多重共线性。

  3. 随机误差项具有条件零均值性,即

    \[\mathbb E(\mu_i|X_1,\cdots,X_k)=0,\forall i.\tag{4.9} \]

  4. 随机误差项具有条件同方差性与条件序列不相关性,即

    \[{\mathbb D(\mu_i|X_1,\cdots,X_k)=\sigma^2,\forall i.\tag{4.10}}\\ {\rm Cov}(\mu_i,\mu_j|X_1,\cdots,X_k)=0,\forall i\ne j. \]

  5. 随机误差项服从条件正态分布,即

    \[\mu_i|X_1,\cdots,X_k\sim N(0,\sigma^2).\tag{4.11} \]

用矩阵符号表示,令\(X\)\(n\times (k+1)\)型数据矩阵(也可以视为\(k+1\)维行随机向量,分情况而定),\(\mu=(\mu_1,\cdots,\mu_n)\),则

  1. \(r(X)=k+1\),相当于\(X\)列满秩。
  2. \(\mathbb E(\mu|X)=0\),这里\(0\)\(n\)维列向量。
  3. \(\mathbb D(\mu|X)=\sigma^2I_n\),这里\(I_n\)\(n\)阶单位阵。
  4. \(\mu|X\sim N_n(0,\sigma^2I_n)\)

现在我们要对这些基本假设作出解释。

首先,无论是在一元线性回归还是多元线性回归,我们在假设\(\mu\)的分布时,总是强调“条件分布”,而不是简单地说\(\mu\)是零均值同方差序列不相关的。应当如何理解这个条件分布?我们必须认识到,实际抽取样本的过程中,\((Y,X)\)都是随机变量,尤其是\(X\)实际上是作为随机变量出现的,只是由于我们常常因为\(X\)是可以观测的而将\(X\)作为常数处理。简单举个例子,假设一维随机变量\(X\)服从如下的离散分布:

\[\mathbb P(X=1)=\mathbb P(X=-1)=0.5,\tag{4.12} \]

\((\mu,X)\)作为二维随机向量处理,\(\mu\)始终与\(X\)数值相同,也就是\(X=1\)\(\mu=1\)\(X=-1\)\(\mu=-1\),则我们有

\[\mathbb E(\mu)=\mathbb P(\mu=1)-\mathbb P(\mu=-1)=\mathbb P(X=1)-\mathbb P(X=-1)=0,\tag{4.13} \]

但是这个时候的\(\mu\)是否是条件零均值的?显然不是,因为

\[\mathbb E(\mu|X=1)=1,\\ \mathbb E\mathbb (\mu|X=-1)=-1.\tag{4.14} \]

显然这样的随机误差分布并不是我们想要的那种“随机”,因为它实际上与\(X\)相关,并不是真正的随机。我们想要的随机是在任何\(X\)的水平下,\(\mu\)都具有同样的分布,因此加入条件分布的约束是有必要的,理解条件分布的关键,就在于要将\(X\)作为随机变量看待。

其次,我们要求回归模型是正确假定的,这指的是我们要求总体确实具有与线性回归函数的形式——否则我们用线性回归模型拟合肯定不可能用样本估计总体,因为总体回归函数与样本回归函数甚至没有相同的形式,更不用说相同的参数估计。

最后,我们要求\(\mathbb E(\mu|X)=0\),这包含了如下信息:

\[\mathbb E(\mu X)=\mathbb E[\mathbb E(\mu X|X)]=\mathbb E[X\mathbb E(\mu|X)]=0.\tag{4.15} \]

这也就说明\({\rm COV}(\mu,X)=\mathbb E(\mu X)-\mathbb E(\mu)\mathbb E(X)=0\),即\(\mu,X\)不存在任何形式的相关性。自然,其中包括了当时间指标相同时,有

\[\mathbb E(\mu_iX_i)=0.\tag{4.16} \]

这时候我们称解释变量\(X\)与随机误差\(\mu\)是同期不相关的,这是一个很重要的假定,至于它为什么重要,我们将在以后讨论。

3、参数估计的性质

我们已经知道在满足基本假设的前提下,一元线性回归的OLS估计量拥有BLUE性质,其实多元线性回归的OLS估计量也是如此,这也是我们引入前四条基本假设的原因之一。现在我们不讨论BLUE性的证明,直接给出\(\hat\beta=(X'X)^{-1}(X'Y)\)是BLUE估计量的结论。

  1. \(\hat\beta\)\(Y\)的线性组合,也就是说\(\forall i=0,1,\cdots,k\)\(\hat\beta_i\)\(Y_1,\cdots,Y_n\)的线性组合。这一点是不言自明的,从\(\hat\beta\)的表达式就可以看出来。
  2. \(\hat\beta\)\(\beta\)的无偏估计量,这等价于\(\forall i=0,1,\cdots,k\)\(\hat\beta_i\)\(\beta_1\)的无偏估计量。
  3. \(\hat\beta\)\(\beta\)的所有线性无偏估计量中,方差最小的那个。

在一元线性回归的过程中,\(\hat\beta_1,\hat\beta_0\)是最小方差的,这里的“最小”很好理解。而扩展到多元时,\(\hat\beta\)的方差是它的自协方差矩阵\(\mathbb D(\hat\beta)\),在这种意义下的最小方差是什么,有必要说明一下。

对于两个非负定矩阵\(A,B\),如果存在另一个非负定矩阵\(C\)使得\(A=B+C\),则称\(A\ge B\)——由此构建了非负定矩阵之间的大小关系。不难看出,如果\(A\ge B\),则对于每一个对角元素都有\(a_{ii}\ge b_{ii}\),因为如果存在某个\(i\)使得\(a_{ii}<b_{ii}\),则令\(C=A-B\)\(c_{ii}<0\),取向量\(e_i\)(第\(i\)个元素为1,其他元素为0的列向量)可以得到

\[e_i'Ce_i=c_{ii}<0,\tag{4.17} \]

这就说明\(C\)不是一个非负定矩阵,矛盾。

因此,这里\(\hat\beta\)的最小方差性,意味着\(\mathbb D(\hat\beta)\)在非负定意义上最小,自然也意味着对于每一个\(\hat\beta_i\),它都是线性无偏估计里方差最小的。

除了 BLUE性,OLS估计量还有一个很重要的性质——一致性,而我们常常忽略这个性质的重要意义。导致我们忽略一致性的原因,一个是BLUE里不包含一致性,而好多人仅仅记住了OLS估计量的BLUE性;另一个是一致性与BLUE性表现性质不同,一致性是大样本性质,BLUE性是小样本性质。什么是大样本性质?并不是说样本量很大的性质,就是大样本性质。大样本性质与小样本性质的本质不同在于,大样本性质包含着样本容量\(n\to \infty\)的趋势,只要是\(n\)趋于无穷能表现出来的性质都是大样本性质。

回到一致性上,OLS估计量的一致性指的是

\[\hat\beta\stackrel {P}\to \beta,\tag{4.18} \]

\(\hat\beta\)以概率收敛于\(\beta\)。稍作翻译,这个式子的意义是\(\forall \varepsilon>0,i=0,1,\cdots,k\)

\[\lim_{n\to \infty}\mathbb P(|\hat\beta_i-\beta_i|>\varepsilon)=0.\tag{4.19} \]

如果还是不了解一致性有什么意义,可以看下面的例子。现在我们想对某个线性回归模型进行参数估计,并且希望能达到0.001的精度,也就是每一个参数与真值的偏离值超过\(\varepsilon=0.001\)的概率都小于任意给定的置信水平\(\alpha\)。显然,具有一致性的估计量可以做到这一点,因为给定了精度,我们只要通过增加抽取的样本,参数的估计量就会自动调整,并且一定是向着接近真值的方向靠近。如果某个参数估计量不具有一致性,即使你抽取再多的样本都没法达到给定的精度,这就是一致性的重要意义。

因此,我们的参数估计量具有线性性、无偏性、最小方差性(有效性)以及一致性,后三个的证明,我们将在基本假设不能满足的情况下给出,从而向你展示每一个基本假设都具有什么样的重要意义,不满足这些基本假设会有什么样的严重后果。最后,在正态性、线性性约束下,我们很容易知道\(\hat\beta\)一定服从多元正态分布,所以只需要求得其均值方差即可。

无偏性保证了

\[\mathbb E(\hat\beta)=\beta,\tag{4.20} \]

关于方差,我们也在这里直接给出(而不给出证明,因为这依赖于基本假设)。

\[\mathbb D(\hat\beta)=\sigma^2(X'X)^{-1}.\tag{4.21} \]

从而

\[\hat\beta\sim N_{k+1}(\beta,\sigma^2(X'X)^{-1}),\tag{4.22} \]

自然有

\[\hat\beta_i\sim N(\beta_i,\sigma^2(X'X)^{-1}_{ii}).\tag{4.23} \]

这样,我们就得到了每一个OLS估计量的分布,自然地可以用它进行区间估计与假设检验。

4、参数的区间估计和假设检验

与一元线性回归问题一样,我们需要考虑的是随机误差项方差\(\sigma^2\)的估计,而且我们依然会使用残差平方和\({\rm RSS}\)来估计方差。这里,我们给出一个\(\sigma^2\)的无偏估计的证明。

注意到\(e=Y-X\hat\beta\),所以

\[\begin{aligned} Q=&e'e\\ =&(Y-X\hat\beta)'(Y-X\hat\beta)\\ =&Y'Y-2\hat\beta'X'Y+\hat\beta'X'X\hat\beta\\ =&Y'Y-2Y'X(X'X)^{-1}X'Y+Y'X(X'X)^{-1}(X'X)(X'X)^{-1}X'Y\\ =&Y'[I-X(X'X)^{-1}X' ]Y \end{aligned}\tag{4.24} \]

这里要注意的是,不能够直接把\((X'X)^{-1}\)拆开成\(X^{-1}(X')^{-1}\),因为\(X,X'\)都不是方阵,不存在逆矩阵。对其求期望,就有

\[\begin{aligned} \mathbb E(Q|X)=&\mathbb E[\beta'X'(I-X(X'X)^{-1}X')X\beta]+\mathbb E[\mu'(I-X(X'X)^{-1}X')\mu]\\ =&\mathbb E{\rm tr}[\mu'(I-X(X'X)^{-1}X')\mu]\\ =&\mathbb E{\rm tr}[\mu'\mu(I-X(X'X)^{-1}X')]\\ =&\sigma^2{\rm tr}(I)-\sigma^2{\rm tr}[X(X'X)^{-1}X']\\ =&\sigma^2{\rm tr}(I)-\sigma^2{\rm tr}[X'X(X'X)^{-1}] \\=&\sigma^2(n-k-1). \end{aligned}\tag{4.25} \]

对上面的式子需要作几点声明。第一个等号成立,是将\(Y\)\(X\beta+\mu\)替代后利用\(\mathbb E(\mu X)=0\)得到的;第二个等号成立,是因为第一部分代入计算后显然等于0,第二部分是一个\(1\times 1\)矩阵,其迹等于自身;第三个等号成立,是因为迹运算满足交换律:

\[{\rm tr}(AB)={\rm tr}(BA).\tag{4.26} \]

第四个等号成立,则是将\(\mathbb E(\mu'\mu)=\sigma^2\)替换掉期望后将两部分拆开;第五个等号成立再次运用了迹运算的交换律;第六个等号需要格外注意,我们这里的单位阵\(I\)是出现于\(Y'Y=Y'IY\)\((4.24)\),所以是\(n\)阶的;而\(X'X\)是一个\(k+1\)阶方阵,所以\(X'X(X'X)^{-1}=I\),这里的\(I\)\(k+1\)阶单位阵。

所以现在,我们得到了\(\sigma^2\)的无偏估计:

\[\hat\sigma^2=\frac{e'e}{n-k-1}. \]

然后,就可以代入\(\hat\beta\)的分布,构造出\(t\)枢轴量,从而构造出每一个\(\hat\beta_i\)的置信区间。另外,要检验某个变量是否显著(对回归有效果),也就是检验变量\(X_i\)的系数\(\beta_i\)是否为0,也可以利用枢轴量计算p-value,完成假设检验。这些步骤与一元线性回归的一致,这里就不再赘述。

posted @ 2021-01-23 11:05  江景景景页  阅读(3052)  评论(0编辑  收藏  举报