计量经济学复习笔记（四）：多元线性回归

一元线性回归的解释变量只有一个，但是实际的模型往往没有这么简单，影响一个变量的因素可能有成百上千个。我们会希望线性回归模型中能够考虑到这些所有的因素，自然就不能再用一元线性回归，而应该将其升级为多元线性回归。但是，有了一元线性回归的基础，讨论多元线性回归可以说是轻而易举。

另外我们没必要分别讨论二元、三元等具体个数变量的回归问题，因为在线性代数的帮助下，我们能够统一讨论对任何解释变量个数的回归问题。

1、多元线性回归模型的系数求解

多元线性回归模型是用\(k\)个解释变量\(X_1,\cdots,X_k\)对被解释变量\(Y\)进行线性拟合的模型，每一个解释变量\(X_i\)之前有一个回归系数\(\beta_i\)，同时还应具有常数项\(\beta_0\)，可以视为与常数\(X_0=1\)相乘，所以多元线性回归模型为

\[Y=\beta_0X_0+\beta_1X_1+\beta_2X_2+\cdots+\beta_kX_k+\mu, \tag{4.1} \]

这里的\(\mu\)依然是随机误差项。从线性回归模型中抽取\(n\)个样本构成\(n\)个观测，排列起来就是

\[\begin{matrix} Y_1=\beta_0X_{10}+\beta_1X_{11}+\beta_2X_{12}+\cdots+\beta_kX_{1k}+\mu_1,\\ Y_2=\beta_0X_{20}+\beta_1X_{21}+\beta_2X_{22}+\cdots+\beta_kX_{2k}+\mu_2, \\ \vdots \\ Y_n=\beta_0X_{n0}+\beta_1X_{n1}+\beta_2X_{n2}+\cdots+\beta_kX_{nk}+\mu_n.\end{matrix}\tag{4.2} \]

其中\(X_{10}=X_{20}=\cdots=X_{n0}=1\)。大型方程组我们会使用矩阵表示，所以引入如下的矩阵记号。

\[{Y=\begin{bmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{bmatrix},\quad \beta=\begin{bmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \end{bmatrix}, \mu=\begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{bmatrix}.\\ X=\begin{bmatrix} X_{10} & X_{11} & X_{12} & \cdots & X_{1k} \\ X_{20} & X_{21} & X_{22} & \cdots & X_{2k} \\ \vdots & \vdots & \vdots & & \vdots \\ X_{n0} & X_{n1} & X_{n2} & \cdots & X_{nk} \end{bmatrix}. } \tag{4.3} \]

在这些矩阵表示中注意几点：首先，\(Y\)和\(\mu\)在矩阵表示式中都是\(n\)维列向量，与样本容量等长，在线性回归模型中\(Y,\mu\)是随机变量，而在矩阵表示中它们是随机向量，尽管我们不在表示形式上加以区分，但我们应该根据上下文明确它们到底是什么意义；\(\beta\)是\(k+1\)维列向量，其长度与\(Y,\mu\)没有关系，这是因为\(\beta\)是依赖于变量个数的，并且加上了对应于常数项的系数（截距项）\(\beta_0\)；最后，\(X\)是数据矩阵，且第一列都是1。在这些矩阵的定义下，多元线性回归模型的观测值们可以表示为

\[Y=X\beta+\mu.\tag{4.4} \]

我们的目标是求得\(\beta\)的估计\(\hat\beta\)，与一元线性回归一样，虽然\(Y,X\)都是随机变量，但我们需要的是给定\(X\)时的条件分布。此时依然使用OLS估计，设\(\beta\)的估计量为\(\hat\beta\)，则残差向量是\(e=Y-X\hat\beta\)，残差平方和为\(Q=e'e\)。为使残差平方和最小，需要对\(\hat\beta\)求偏导，即

\[\begin{aligned} \frac{\partial Q}{\partial \hat\beta}=&\frac{\partial}{\partial\hat\beta}(e'e)\\ =&\frac{\partial}{\partial\hat\beta}[(Y-X\hat\beta)'(Y-X\hat\beta)]\\ =&\frac{\partial}{\partial\hat\beta}[Y'Y-\hat\beta' X'Y-Y'X\hat\beta+\hat\beta'X'X\hat\beta]\\ =&2(X'X\hat\beta-X'Y)=0. \end{aligned}\tag{4.5} \]

于是

\[X'X\hat\beta=X'Y,\tag{4.6} \]

若\(X'X\)可逆，则

\[\hat\beta=(X'X)^{-1}X'Y.\tag{4.7} \]

这样我们就得到了\(\beta\)的参数估计量\(\hat\beta\)。顺带一提，由于我们将\(Q\)表现为矩阵乘积的形式，所以对\(\hat\beta\)求偏导也能得到\(Q\)的最小值，事实上对\(\hat\beta\)求矩阵微商的过程，等价于对\(\hat\beta\)中的每一个分量\((\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_k)\)求偏导，然后将每一个偏导的结果按列排布，这样令矩阵微商为0，就等价于每一个偏导数为0。这里用到的矩阵微商公式有以下两个：

\[\frac{\partial x'b}{\partial x}=\frac{\partial b'x}{x}=b,\frac{\partial x'Ax}{x}=(A+A')x.\tag{4.8} \]

当然，我们不能忽略这样一个事实：想要得到这样的OLS估计量必须有\(X'X\)可逆，但是\(X'X\)在什么情况下可逆？注意到\(X\)是一个\(n\times(k+1)\)型矩阵，\(X'X\)是一个\(k+1\)阶方阵，要使其可逆，则\(X'X\)满秩，也就是\(r(X'X)=k+1\)。由于\(r(X'X)\le r(X)\le\min(n,k+1)\)，所以\(X'X\)要满秩，有以下的必要条件：

\(n\ge k+1\)，也就是样本观测数不小于\(k+1\)；
\(r(X)=k+1\)，也就是\(X\)的列向量组必须线性无关。

现在，我们已经认识到\(X\)的列向量组应当无关，也就是\((X_1,\cdots,X_k)\)不线性相关这一基本假设需要被满足。进一步地，我们应该开始认识线性回归模型的基本假设了，我们所说的OLS估计量的优秀性质，全部依赖于线性回归模型的基本假设，如果基本假设无法被满足，我们的OLS估计量就会失去很多效果。

2、线性回归模型的基本假设

在一元线性回归模型中，我们只粗糙地提到了以下的假设：随机误差项条件零均值同方差、随机误差项条件序列不相关、任意随机误差项与解释变量不相关，以及随机误差项服从条件正态分布。事实上，一元线性回归模型的基本假设不止以上几条，它与多元线性回归模型的基本假设一致，有以下几条。

回归模型是正确假定的。
解释变量\(X_1,\cdots,X_k\)在所抽取的样本中具有变异性（独立同分布），且不存在多重共线性。
随机误差项具有条件零均值性，即

\[\mathbb E(\mu_i|X_1,\cdots,X_k)=0,\forall i.\tag{4.9} \]
随机误差项具有条件同方差性与条件序列不相关性，即

\[{\mathbb D(\mu_i|X_1,\cdots,X_k)=\sigma^2,\forall i.\tag{4.10}}\\ {\rm Cov}(\mu_i,\mu_j|X_1,\cdots,X_k)=0,\forall i\ne j. \]
随机误差项服从条件正态分布，即

\[\mu_i|X_1,\cdots,X_k\sim N(0,\sigma^2).\tag{4.11} \]

用矩阵符号表示，令\(X\)为\(n\times (k+1)\)型数据矩阵（也可以视为\(k+1\)维行随机向量，分情况而定），\(\mu=(\mu_1,\cdots,\mu_n)\)，则

\(r(X)=k+1\)，相当于\(X\)列满秩。
\(\mathbb E(\mu|X)=0\)，这里\(0\)是\(n\)维列向量。
\(\mathbb D(\mu|X)=\sigma^2I_n\)，这里\(I_n\)是\(n\)阶单位阵。
\(\mu|X\sim N_n(0,\sigma^2I_n)\)。

现在我们要对这些基本假设作出解释。

首先，无论是在一元线性回归还是多元线性回归，我们在假设\(\mu\)的分布时，总是强调“条件分布”，而不是简单地说\(\mu\)是零均值同方差序列不相关的。应当如何理解这个条件分布？我们必须认识到，实际抽取样本的过程中，\((Y,X)\)都是随机变量，尤其是\(X\)实际上是作为随机变量出现的，只是由于我们常常因为\(X\)是可以观测的而将\(X\)作为常数处理。简单举个例子，假设一维随机变量\(X\)服从如下的离散分布：

\[\mathbb P(X=1)=\mathbb P(X=-1)=0.5,\tag{4.12} \]

将\((\mu,X)\)作为二维随机向量处理，\(\mu\)始终与\(X\)数值相同，也就是\(X=1\)时\(\mu=1\)，\(X=-1\)时\(\mu=-1\)，则我们有

\[\mathbb E(\mu)=\mathbb P(\mu=1)-\mathbb P(\mu=-1)=\mathbb P(X=1)-\mathbb P(X=-1)=0,\tag{4.13} \]

但是这个时候的\(\mu\)是否是条件零均值的？显然不是，因为

\[\mathbb E(\mu|X=1)=1,\\ \mathbb E\mathbb (\mu|X=-1)=-1.\tag{4.14} \]

显然这样的随机误差分布并不是我们想要的那种“随机”，因为它实际上与\(X\)相关，并不是真正的随机。我们想要的随机是在任何\(X\)的水平下，\(\mu\)都具有同样的分布，因此加入条件分布的约束是有必要的，理解条件分布的关键，就在于要将\(X\)作为随机变量看待。

其次，我们要求回归模型是正确假定的，这指的是我们要求总体确实具有与线性回归函数的形式——否则我们用线性回归模型拟合肯定不可能用样本估计总体，因为总体回归函数与样本回归函数甚至没有相同的形式，更不用说相同的参数估计。

最后，我们要求\(\mathbb E(\mu|X)=0\)，这包含了如下信息：

\[\mathbb E(\mu X)=\mathbb E[\mathbb E(\mu X|X)]=\mathbb E[X\mathbb E(\mu|X)]=0.\tag{4.15} \]

这也就说明\({\rm COV}(\mu,X)=\mathbb E(\mu X)-\mathbb E(\mu)\mathbb E(X)=0\)，即\(\mu,X\)不存在任何形式的相关性。自然，其中包括了当时间指标相同时，有

\[\mathbb E(\mu_iX_i)=0.\tag{4.16} \]

这时候我们称解释变量\(X\)与随机误差\(\mu\)是同期不相关的，这是一个很重要的假定，至于它为什么重要，我们将在以后讨论。

3、参数估计的性质

我们已经知道在满足基本假设的前提下，一元线性回归的OLS估计量拥有BLUE性质，其实多元线性回归的OLS估计量也是如此，这也是我们引入前四条基本假设的原因之一。现在我们不讨论BLUE性的证明，直接给出\(\hat\beta=(X'X)^{-1}(X'Y)\)是BLUE估计量的结论。

\(\hat\beta\)是\(Y\)的线性组合，也就是说\(\forall i=0,1,\cdots,k\)，\(\hat\beta_i\)是\(Y_1,\cdots,Y_n\)的线性组合。这一点是不言自明的，从\(\hat\beta\)的表达式就可以看出来。
\(\hat\beta\)是\(\beta\)的无偏估计量，这等价于\(\forall i=0,1,\cdots,k\)，\(\hat\beta_i\)是\(\beta_1\)的无偏估计量。
\(\hat\beta\)是\(\beta\)的所有线性无偏估计量中，方差最小的那个。

在一元线性回归的过程中，\(\hat\beta_1,\hat\beta_0\)是最小方差的，这里的“最小”很好理解。而扩展到多元时，\(\hat\beta\)的方差是它的自协方差矩阵\(\mathbb D(\hat\beta)\)，在这种意义下的最小方差是什么，有必要说明一下。

对于两个非负定矩阵\(A,B\)，如果存在另一个非负定矩阵\(C\)使得\(A=B+C\)，则称\(A\ge B\)——由此构建了非负定矩阵之间的大小关系。不难看出，如果\(A\ge B\)，则对于每一个对角元素都有\(a_{ii}\ge b_{ii}\)，因为如果存在某个\(i\)使得\(a_{ii}<b_{ii}\)，则令\(C=A-B\)，\(c_{ii}<0\)，取向量\(e_i\)（第\(i\)个元素为1，其他元素为0的列向量）可以得到

\[e_i'Ce_i=c_{ii}<0,\tag{4.17} \]

这就说明\(C\)不是一个非负定矩阵，矛盾。

因此，这里\(\hat\beta\)的最小方差性，意味着\(\mathbb D(\hat\beta)\)在非负定意义上最小，自然也意味着对于每一个\(\hat\beta_i\)，它都是线性无偏估计里方差最小的。

除了 BLUE性，OLS估计量还有一个很重要的性质——一致性，而我们常常忽略这个性质的重要意义。导致我们忽略一致性的原因，一个是BLUE里不包含一致性，而好多人仅仅记住了OLS估计量的BLUE性；另一个是一致性与BLUE性表现性质不同，一致性是大样本性质，BLUE性是小样本性质。什么是大样本性质？并不是说样本量很大的性质，就是大样本性质。大样本性质与小样本性质的本质不同在于，大样本性质包含着样本容量\(n\to \infty\)的趋势，只要是\(n\)趋于无穷能表现出来的性质都是大样本性质。

回到一致性上，OLS估计量的一致性指的是

\[\hat\beta\stackrel {P}\to \beta,\tag{4.18} \]

即\(\hat\beta\)以概率收敛于\(\beta\)。稍作翻译，这个式子的意义是\(\forall \varepsilon>0,i=0,1,\cdots,k\)，

\[\lim_{n\to \infty}\mathbb P(|\hat\beta_i-\beta_i|>\varepsilon)=0.\tag{4.19} \]

如果还是不了解一致性有什么意义，可以看下面的例子。现在我们想对某个线性回归模型进行参数估计，并且希望能达到0.001的精度，也就是每一个参数与真值的偏离值超过\(\varepsilon=0.001\)的概率都小于任意给定的置信水平\(\alpha\)。显然，具有一致性的估计量可以做到这一点，因为给定了精度，我们只要通过增加抽取的样本，参数的估计量就会自动调整，并且一定是向着接近真值的方向靠近。如果某个参数估计量不具有一致性，即使你抽取再多的样本都没法达到给定的精度，这就是一致性的重要意义。

因此，我们的参数估计量具有线性性、无偏性、最小方差性（有效性）以及一致性，后三个的证明，我们将在基本假设不能满足的情况下给出，从而向你展示每一个基本假设都具有什么样的重要意义，不满足这些基本假设会有什么样的严重后果。最后，在正态性、线性性约束下，我们很容易知道\(\hat\beta\)一定服从多元正态分布，所以只需要求得其均值方差即可。

无偏性保证了

\[\mathbb E(\hat\beta)=\beta,\tag{4.20} \]

关于方差，我们也在这里直接给出（而不给出证明，因为这依赖于基本假设）。

\[\mathbb D(\hat\beta)=\sigma^2(X'X)^{-1}.\tag{4.21} \]

从而

\[\hat\beta\sim N_{k+1}(\beta,\sigma^2(X'X)^{-1}),\tag{4.22} \]

自然有

\[\hat\beta_i\sim N(\beta_i,\sigma^2(X'X)^{-1}_{ii}).\tag{4.23} \]

这样，我们就得到了每一个OLS估计量的分布，自然地可以用它进行区间估计与假设检验。

4、参数的区间估计和假设检验

与一元线性回归问题一样，我们需要考虑的是随机误差项方差\(\sigma^2\)的估计，而且我们依然会使用残差平方和\({\rm RSS}\)来估计方差。这里，我们给出一个\(\sigma^2\)的无偏估计的证明。

注意到\(e=Y-X\hat\beta\)，所以

\[\begin{aligned} Q=&e'e\\ =&(Y-X\hat\beta)'(Y-X\hat\beta)\\ =&Y'Y-2\hat\beta'X'Y+\hat\beta'X'X\hat\beta\\ =&Y'Y-2Y'X(X'X)^{-1}X'Y+Y'X(X'X)^{-1}(X'X)(X'X)^{-1}X'Y\\ =&Y'[I-X(X'X)^{-1}X' ]Y \end{aligned}\tag{4.24} \]

这里要注意的是，不能够直接把\((X'X)^{-1}\)拆开成\(X^{-1}(X')^{-1}\)，因为\(X,X'\)都不是方阵，不存在逆矩阵。对其求期望，就有

\[\begin{aligned} \mathbb E(Q|X)=&\mathbb E[\beta'X'(I-X(X'X)^{-1}X')X\beta]+\mathbb E[\mu'(I-X(X'X)^{-1}X')\mu]\\ =&\mathbb E{\rm tr}[\mu'(I-X(X'X)^{-1}X')\mu]\\ =&\mathbb E{\rm tr}[\mu'\mu(I-X(X'X)^{-1}X')]\\ =&\sigma^2{\rm tr}(I)-\sigma^2{\rm tr}[X(X'X)^{-1}X']\\ =&\sigma^2{\rm tr}(I)-\sigma^2{\rm tr}[X'X(X'X)^{-1}] \\=&\sigma^2(n-k-1). \end{aligned}\tag{4.25} \]

对上面的式子需要作几点声明。第一个等号成立，是将\(Y\)用\(X\beta+\mu\)替代后利用\(\mathbb E(\mu X)=0\)得到的；第二个等号成立，是因为第一部分代入计算后显然等于0，第二部分是一个\(1\times 1\)矩阵，其迹等于自身；第三个等号成立，是因为迹运算满足交换律：

\[{\rm tr}(AB)={\rm tr}(BA).\tag{4.26} \]

第四个等号成立，则是将\(\mathbb E(\mu'\mu)=\sigma^2\)替换掉期望后将两部分拆开；第五个等号成立再次运用了迹运算的交换律；第六个等号需要格外注意，我们这里的单位阵\(I\)是出现于\(Y'Y=Y'IY\)的\((4.24)\)，所以是\(n\)阶的；而\(X'X\)是一个\(k+1\)阶方阵，所以\(X'X(X'X)^{-1}=I\)，这里的\(I\)是\(k+1\)阶单位阵。

所以现在，我们得到了\(\sigma^2\)的无偏估计：

\[\hat\sigma^2=\frac{e'e}{n-k-1}. \]

然后，就可以代入\(\hat\beta\)的分布，构造出\(t\)枢轴量，从而构造出每一个\(\hat\beta_i\)的置信区间。另外，要检验某个变量是否显著（对回归有效果），也就是检验变量\(X_i\)的系数\(\beta_i\)是否为0，也可以利用枢轴量计算p-value，完成假设检验。这些步骤与一元线性回归的一致，这里就不再赘述。

posted @ 2021-01-23 11:05 江景景景页阅读(3052) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

江景景景页

计量经济学复习笔记（四）：多元线性回归

1、多元线性回归模型的系数求解

2、线性回归模型的基本假设

3、参数估计的性质

4、参数的区间估计和假设检验

公告