计量经济学复习笔记(四):多元线性回归
一元线性回归的解释变量只有一个,但是实际的模型往往没有这么简单,影响一个变量的因素可能有成百上千个。我们会希望线性回归模型中能够考虑到这些所有的因素,自然就不能再用一元线性回归,而应该将其升级为多元线性回归。但是,有了一元线性回归的基础,讨论多元线性回归可以说是轻而易举。
另外我们没必要分别讨论二元、三元等具体个数变量的回归问题,因为在线性代数的帮助下,我们能够统一讨论对任何解释变量个数的回归问题。
1、多元线性回归模型的系数求解
多元线性回归模型是用\(k\)个解释变量\(X_1,\cdots,X_k\)对被解释变量\(Y\)进行线性拟合的模型,每一个解释变量\(X_i\)之前有一个回归系数\(\beta_i\),同时还应具有常数项\(\beta_0\),可以视为与常数\(X_0=1\)相乘,所以多元线性回归模型为
这里的\(\mu\)依然是随机误差项。从线性回归模型中抽取\(n\)个样本构成\(n\)个观测,排列起来就是
其中\(X_{10}=X_{20}=\cdots=X_{n0}=1\)。大型方程组我们会使用矩阵表示,所以引入如下的矩阵记号。
在这些矩阵表示中注意几点:首先,\(Y\)和\(\mu\)在矩阵表示式中都是\(n\)维列向量,与样本容量等长,在线性回归模型中\(Y,\mu\)是随机变量,而在矩阵表示中它们是随机向量,尽管我们不在表示形式上加以区分,但我们应该根据上下文明确它们到底是什么意义;\(\beta\)是\(k+1\)维列向量,其长度与\(Y,\mu\)没有关系,这是因为\(\beta\)是依赖于变量个数的,并且加上了对应于常数项的系数(截距项)\(\beta_0\);最后,\(X\)是数据矩阵,且第一列都是1。在这些矩阵的定义下,多元线性回归模型的观测值们可以表示为
我们的目标是求得\(\beta\)的估计\(\hat\beta\),与一元线性回归一样,虽然\(Y,X\)都是随机变量,但我们需要的是给定\(X\)时的条件分布。此时依然使用OLS估计,设\(\beta\)的估计量为\(\hat\beta\),则残差向量是\(e=Y-X\hat\beta\),残差平方和为\(Q=e'e\)。为使残差平方和最小,需要对\(\hat\beta\)求偏导,即
于是
若\(X'X\)可逆,则
这样我们就得到了\(\beta\)的参数估计量\(\hat\beta\)。顺带一提,由于我们将\(Q\)表现为矩阵乘积的形式,所以对\(\hat\beta\)求偏导也能得到\(Q\)的最小值,事实上对\(\hat\beta\)求矩阵微商的过程,等价于对\(\hat\beta\)中的每一个分量\((\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_k)\)求偏导,然后将每一个偏导的结果按列排布,这样令矩阵微商为0,就等价于每一个偏导数为0。这里用到的矩阵微商公式有以下两个:
当然,我们不能忽略这样一个事实:想要得到这样的OLS估计量必须有\(X'X\)可逆,但是\(X'X\)在什么情况下可逆?注意到\(X\)是一个\(n\times(k+1)\)型矩阵,\(X'X\)是一个\(k+1\)阶方阵,要使其可逆,则\(X'X\)满秩,也就是\(r(X'X)=k+1\)。由于\(r(X'X)\le r(X)\le\min(n,k+1)\),所以\(X'X\)要满秩,有以下的必要条件:
- \(n\ge k+1\),也就是样本观测数不小于\(k+1\);
- \(r(X)=k+1\),也就是\(X\)的列向量组必须线性无关。
现在,我们已经认识到\(X\)的列向量组应当无关,也就是\((X_1,\cdots,X_k)\)不线性相关这一基本假设需要被满足。进一步地,我们应该开始认识线性回归模型的基本假设了,我们所说的OLS估计量的优秀性质,全部依赖于线性回归模型的基本假设,如果基本假设无法被满足,我们的OLS估计量就会失去很多效果。
2、线性回归模型的基本假设
在一元线性回归模型中,我们只粗糙地提到了以下的假设:随机误差项条件零均值同方差、随机误差项条件序列不相关、任意随机误差项与解释变量不相关,以及随机误差项服从条件正态分布。事实上,一元线性回归模型的基本假设不止以上几条,它与多元线性回归模型的基本假设一致,有以下几条。
-
回归模型是正确假定的。
-
解释变量\(X_1,\cdots,X_k\)在所抽取的样本中具有变异性(独立同分布),且不存在多重共线性。
-
随机误差项具有条件零均值性,即
\[\mathbb E(\mu_i|X_1,\cdots,X_k)=0,\forall i.\tag{4.9} \] -
随机误差项具有条件同方差性与条件序列不相关性,即
\[{\mathbb D(\mu_i|X_1,\cdots,X_k)=\sigma^2,\forall i.\tag{4.10}}\\ {\rm Cov}(\mu_i,\mu_j|X_1,\cdots,X_k)=0,\forall i\ne j. \] -
随机误差项服从条件正态分布,即
\[\mu_i|X_1,\cdots,X_k\sim N(0,\sigma^2).\tag{4.11} \]
用矩阵符号表示,令\(X\)为\(n\times (k+1)\)型数据矩阵(也可以视为\(k+1\)维行随机向量,分情况而定),\(\mu=(\mu_1,\cdots,\mu_n)\),则
- \(r(X)=k+1\),相当于\(X\)列满秩。
- \(\mathbb E(\mu|X)=0\),这里\(0\)是\(n\)维列向量。
- \(\mathbb D(\mu|X)=\sigma^2I_n\),这里\(I_n\)是\(n\)阶单位阵。
- \(\mu|X\sim N_n(0,\sigma^2I_n)\)。
现在我们要对这些基本假设作出解释。
首先,无论是在一元线性回归还是多元线性回归,我们在假设\(\mu\)的分布时,总是强调“条件分布”,而不是简单地说\(\mu\)是零均值同方差序列不相关的。应当如何理解这个条件分布?我们必须认识到,实际抽取样本的过程中,\((Y,X)\)都是随机变量,尤其是\(X\)实际上是作为随机变量出现的,只是由于我们常常因为\(X\)是可以观测的而将\(X\)作为常数处理。简单举个例子,假设一维随机变量\(X\)服从如下的离散分布:
将\((\mu,X)\)作为二维随机向量处理,\(\mu\)始终与\(X\)数值相同,也就是\(X=1\)时\(\mu=1\),\(X=-1\)时\(\mu=-1\),则我们有
但是这个时候的\(\mu\)是否是条件零均值的?显然不是,因为
显然这样的随机误差分布并不是我们想要的那种“随机”,因为它实际上与\(X\)相关,并不是真正的随机。我们想要的随机是在任何\(X\)的水平下,\(\mu\)都具有同样的分布,因此加入条件分布的约束是有必要的,理解条件分布的关键,就在于要将\(X\)作为随机变量看待。
其次,我们要求回归模型是正确假定的,这指的是我们要求总体确实具有与线性回归函数的形式——否则我们用线性回归模型拟合肯定不可能用样本估计总体,因为总体回归函数与样本回归函数甚至没有相同的形式,更不用说相同的参数估计。
最后,我们要求\(\mathbb E(\mu|X)=0\),这包含了如下信息:
这也就说明\({\rm COV}(\mu,X)=\mathbb E(\mu X)-\mathbb E(\mu)\mathbb E(X)=0\),即\(\mu,X\)不存在任何形式的相关性。自然,其中包括了当时间指标相同时,有
这时候我们称解释变量\(X\)与随机误差\(\mu\)是同期不相关的,这是一个很重要的假定,至于它为什么重要,我们将在以后讨论。
3、参数估计的性质
我们已经知道在满足基本假设的前提下,一元线性回归的OLS估计量拥有BLUE性质,其实多元线性回归的OLS估计量也是如此,这也是我们引入前四条基本假设的原因之一。现在我们不讨论BLUE性的证明,直接给出\(\hat\beta=(X'X)^{-1}(X'Y)\)是BLUE估计量的结论。
- \(\hat\beta\)是\(Y\)的线性组合,也就是说\(\forall i=0,1,\cdots,k\),\(\hat\beta_i\)是\(Y_1,\cdots,Y_n\)的线性组合。这一点是不言自明的,从\(\hat\beta\)的表达式就可以看出来。
- \(\hat\beta\)是\(\beta\)的无偏估计量,这等价于\(\forall i=0,1,\cdots,k\),\(\hat\beta_i\)是\(\beta_1\)的无偏估计量。
- \(\hat\beta\)是\(\beta\)的所有线性无偏估计量中,方差最小的那个。
在一元线性回归的过程中,\(\hat\beta_1,\hat\beta_0\)是最小方差的,这里的“最小”很好理解。而扩展到多元时,\(\hat\beta\)的方差是它的自协方差矩阵\(\mathbb D(\hat\beta)\),在这种意义下的最小方差是什么,有必要说明一下。
对于两个非负定矩阵\(A,B\),如果存在另一个非负定矩阵\(C\)使得\(A=B+C\),则称\(A\ge B\)——由此构建了非负定矩阵之间的大小关系。不难看出,如果\(A\ge B\),则对于每一个对角元素都有\(a_{ii}\ge b_{ii}\),因为如果存在某个\(i\)使得\(a_{ii}<b_{ii}\),则令\(C=A-B\),\(c_{ii}<0\),取向量\(e_i\)(第\(i\)个元素为1,其他元素为0的列向量)可以得到
这就说明\(C\)不是一个非负定矩阵,矛盾。
因此,这里\(\hat\beta\)的最小方差性,意味着\(\mathbb D(\hat\beta)\)在非负定意义上最小,自然也意味着对于每一个\(\hat\beta_i\),它都是线性无偏估计里方差最小的。
除了 BLUE性,OLS估计量还有一个很重要的性质——一致性,而我们常常忽略这个性质的重要意义。导致我们忽略一致性的原因,一个是BLUE里不包含一致性,而好多人仅仅记住了OLS估计量的BLUE性;另一个是一致性与BLUE性表现性质不同,一致性是大样本性质,BLUE性是小样本性质。什么是大样本性质?并不是说样本量很大的性质,就是大样本性质。大样本性质与小样本性质的本质不同在于,大样本性质包含着样本容量\(n\to \infty\)的趋势,只要是\(n\)趋于无穷能表现出来的性质都是大样本性质。
回到一致性上,OLS估计量的一致性指的是
即\(\hat\beta\)以概率收敛于\(\beta\)。稍作翻译,这个式子的意义是\(\forall \varepsilon>0,i=0,1,\cdots,k\),
如果还是不了解一致性有什么意义,可以看下面的例子。现在我们想对某个线性回归模型进行参数估计,并且希望能达到0.001的精度,也就是每一个参数与真值的偏离值超过\(\varepsilon=0.001\)的概率都小于任意给定的置信水平\(\alpha\)。显然,具有一致性的估计量可以做到这一点,因为给定了精度,我们只要通过增加抽取的样本,参数的估计量就会自动调整,并且一定是向着接近真值的方向靠近。如果某个参数估计量不具有一致性,即使你抽取再多的样本都没法达到给定的精度,这就是一致性的重要意义。
因此,我们的参数估计量具有线性性、无偏性、最小方差性(有效性)以及一致性,后三个的证明,我们将在基本假设不能满足的情况下给出,从而向你展示每一个基本假设都具有什么样的重要意义,不满足这些基本假设会有什么样的严重后果。最后,在正态性、线性性约束下,我们很容易知道\(\hat\beta\)一定服从多元正态分布,所以只需要求得其均值方差即可。
无偏性保证了
关于方差,我们也在这里直接给出(而不给出证明,因为这依赖于基本假设)。
从而
自然有
这样,我们就得到了每一个OLS估计量的分布,自然地可以用它进行区间估计与假设检验。
4、参数的区间估计和假设检验
与一元线性回归问题一样,我们需要考虑的是随机误差项方差\(\sigma^2\)的估计,而且我们依然会使用残差平方和\({\rm RSS}\)来估计方差。这里,我们给出一个\(\sigma^2\)的无偏估计的证明。
注意到\(e=Y-X\hat\beta\),所以
这里要注意的是,不能够直接把\((X'X)^{-1}\)拆开成\(X^{-1}(X')^{-1}\),因为\(X,X'\)都不是方阵,不存在逆矩阵。对其求期望,就有
对上面的式子需要作几点声明。第一个等号成立,是将\(Y\)用\(X\beta+\mu\)替代后利用\(\mathbb E(\mu X)=0\)得到的;第二个等号成立,是因为第一部分代入计算后显然等于0,第二部分是一个\(1\times 1\)矩阵,其迹等于自身;第三个等号成立,是因为迹运算满足交换律:
第四个等号成立,则是将\(\mathbb E(\mu'\mu)=\sigma^2\)替换掉期望后将两部分拆开;第五个等号成立再次运用了迹运算的交换律;第六个等号需要格外注意,我们这里的单位阵\(I\)是出现于\(Y'Y=Y'IY\)的\((4.24)\),所以是\(n\)阶的;而\(X'X\)是一个\(k+1\)阶方阵,所以\(X'X(X'X)^{-1}=I\),这里的\(I\)是\(k+1\)阶单位阵。
所以现在,我们得到了\(\sigma^2\)的无偏估计:
然后,就可以代入\(\hat\beta\)的分布,构造出\(t\)枢轴量,从而构造出每一个\(\hat\beta_i\)的置信区间。另外,要检验某个变量是否显著(对回归有效果),也就是检验变量\(X_i\)的系数\(\beta_i\)是否为0,也可以利用枢轴量计算p-value,完成假设检验。这些步骤与一元线性回归的一致,这里就不再赘述。