Chapter 3:矩阵形式的线性回归模型
一、模型设定与最小二乘估计
利用矩阵形式推导多元线性回归模型的解,其思想主要来源于线性方程组和矩阵形式的相互转化。而线性方程组则来源于样本观测数据,首先我们假设总体模型的设定:
\[y=\beta_0+\beta_1x_1+\cdots+\beta_kx_k+u .
\]
用 \(n\) 表示样本容量,我们可以把来自总体的每一次观测样本写成一个方程:
\[\left\{
\begin{array}{l}
y_1=\beta_0+\beta_1x_{11}+\cdots+\beta_kx_{1k}+u_1, \\
y_2=\beta_0+\beta_1x_{21}+\cdots+\beta_kx_{2k}+u_2 , \\
\ \vdots \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \vdots \\
y_n=\beta_0+\beta_1x_{n1}+\cdots+\beta_kx_{nk}+u_n, \\
\end{array}
\right.
\]
定义如下的数据向量和矩阵:
\[\boldsymbol{Y}=\left[
\begin{array}{c}
y_1 \\
y_2 \\
\vdots \\
y_n \\
\end{array}
\right] ,\quad \boldsymbol{X}=\left[
\begin{array}{ccccc}
1 & x_{11} & x_{12} & \cdots & x_{1k} \\
1 & x_{21} & x_{22} & \cdots & x_{2k} \\
\vdots & \vdots & \vdots & & \vdots \\
1 & x_{n1} & x_{n2} & \cdots & x_{nk} \\
\end{array}
\right] ,\quad \boldsymbol\beta=\left[
\begin{array}{c}
\beta_0 \\
\beta_1 \\
\vdots \\
\beta_k \\
\end{array}
\right] ,\quad \boldsymbol\mu=\left[
\begin{array}{c}
u_1 \\
u_2 \\
\vdots \\
u_n \\
\end{array}
\right] .
\]
其中 \(\boldsymbol{Y}\) 表示被解释变量的观测数据的 \(n\times1\) 向量, \(\boldsymbol{X}\) 表示解释变量的观测数据的 \(n\times(k+1)\) 矩阵,\(\boldsymbol\beta\) 表示所有参数的 \((k+1)\times1\) 向量,\(\boldsymbol\mu\) 表示观测不到的误差项 \(n\times1\) 向量。
于是,我们可以将带有 \(n\) 个观测样本的总体回归模型写成矩阵形式:
\[\boldsymbol{Y}=\boldsymbol{X\beta}+\boldsymbol{\mu} .
\]
和一元模型类似,想要求解 \(\boldsymbol{\beta}\) 的最小二乘估计,还是从最小化残差平方和开始。设 \(\boldsymbol\mu\) 的估计值(即残差向量)为 \(\hat{\boldsymbol\mu}=\boldsymbol{e}\) ,首先定义残差平方和:
\[{\rm SSR}=\sum_{i=1}^n e_i^2=\boldsymbol{e}^{\rm T}\boldsymbol{e}=\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right)^{\rm T}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right)
\]
满足最小化残差平方和的 \(\hat{\boldsymbol\beta}\) 一定满足一阶条件:
\[\begin{aligned}
\frac{\partial{\rm SSR}}{\partial\hat{\boldsymbol\beta}} &=\frac{\partial}{\partial\hat{\boldsymbol\beta}}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right)^{\rm T}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right) \\
&=\frac{\partial}{\partial\hat{\boldsymbol\beta}}\left(\boldsymbol{Y}^{\rm T}\boldsymbol{Y}-\hat{\boldsymbol\beta}^{\rm T}\boldsymbol{X}^{\rm T}\boldsymbol{Y}-\boldsymbol{Y}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}+\hat{\boldsymbol\beta}^{\rm T}\boldsymbol{X}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}\right) \\
&=2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}-\boldsymbol{X}^{\rm T}\boldsymbol{Y} \right)=0 ,
\end{aligned}
\]
当 \(\boldsymbol{X}^{\rm T}\boldsymbol{X}\) 可逆时,求解一阶条件即可得到
\[\hat{\boldsymbol\beta}=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} .
\]
此时我们可以计算出 OLS 拟合值和残差的 \(n\times1\) 向量
\[\hat{\boldsymbol{Y}}=\boldsymbol{X}\hat{\boldsymbol\beta}=\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} ,
\]
\[\boldsymbol{e}=\boldsymbol{Y}-\hat{\boldsymbol{Y}}=\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol{\beta}} .
\]
二、线性回归模型的基本假定
接下来我们想要利用矩阵形式来推导 OLS 估计的期望和方差。在这之前我们需要对模型提出基本假设,以保证 OLS 估计的可行性和合理性。
假定 1:线性于参数
总体回归模型可以写成: \(\boldsymbol{Y}=\boldsymbol{X\beta}+\boldsymbol{\mu}\) ,其中 \(\boldsymbol{Y}\) 和 \(\boldsymbol{\beta}\) 是线性关系。
假定 2:不存在完全共线性
矩阵 \(X\) 的秩为 \(k+1\) 。
这是对解释变量之间不存在线性相关假定的严格定义。在该假定成立的情况下,\(\boldsymbol{X}^{\rm T}\boldsymbol{X}\) 是非奇异的(即可逆),有 \({\rm r}(\boldsymbol{X}^{\rm T}\boldsymbol{X})=k+1\) ,此时 \(\hat{\boldsymbol{\beta}}\) 是唯一的解。
假定 3:零条件均值
以整个矩阵 \(\boldsymbol{X}\) 为条件,每个 \(u_i\) 的均值都为 \(0\) :
\[{\rm E}(u_i|\boldsymbol{X})=0 ,\quad i=1,2,\cdots,n ,
\]
该假定可以写成向量形式:\({\rm E}(\boldsymbol{\mu}|\boldsymbol{X})=0\) ,对应于多元回归模型的随机抽样假定 MLR.2 和零条件均值假定 MLR.4 。
假定 4:同方差和不存在序列相关
(1) \({\rm Var}(u_i|\boldsymbol{X})=\sigma^2 ,\ \ i=1,2,\cdots,n\) ;
(2) \({\rm Cov}(u_i,\,u_j|\boldsymbol{X})=0\) 对任意的 \(i\neq j\) 成立。
该假定又被称为球型扰动假定。若随机干扰项满足该假设,则称该模型具有球形扰动项。可以写作矩阵形式:\({\rm Var}(\boldsymbol\mu|\boldsymbol{X})=\sigma^2\boldsymbol{I}_n\) ,其中 \(\boldsymbol{I}_n\) 为 \(n\times n\) 单位矩阵。
假定 5:正态性假定
以 \(\boldsymbol{X}\) 为条件,\(u_i\) 服从独立同分布的 \(N(0,\,\sigma^2)\) ,\(i=1,2,\cdots,n\) 。
用矩阵形式表示为:给定 \(\boldsymbol{X}\) ,随机干扰项 \(\boldsymbol{\mu}\) 服从均值为 \(0\) 和方差-协方差矩阵为 \(\sigma^2\boldsymbol{I}_n\) 的多元正态分布
\[\boldsymbol{\mu}|\boldsymbol{X}\sim N(\boldsymbol{0},\,\sigma^2\boldsymbol{I}_n) .
\]
正态性假定是对模型的随机干扰项施加的最强的假设。在正态性假定下,对于所有的观测 \(i\) ,每个 \(u_i\) 都独立于解释变量。在时间序列数据中,实质上是一个严格外生性假设,我们在时间序列的部分进行介绍。
三、最小二乘估计的统计性质
在一元和多元回归模型中,我们都曾给出了 OLS 估计量具有 BLUE 的性质,但当时我们并没有对所有的统计性质进行推导证明。基于以上基本假定,我们可以利用矩阵运算的优良性质来推导 OLS 估计的统计性质。
定理 1:OLS 的无偏性
在假定 1 至假定 3 的条件下,OLS 估计量 \(\hat{\boldsymbol\beta}\) 是 \(\boldsymbol\beta\) 的无偏估计。
证明:首先通过运算将 \(\boldsymbol\beta\) 从估计量 \(\hat{\boldsymbol\beta}\) 中分离出来,然后对剩余部分利用零条件均值假定。
\[\begin{aligned}
\hat{\boldsymbol\beta}&=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} \\
&=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\left(\boldsymbol{X\beta}+\boldsymbol{\mu}\right) \\
&=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{X\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu} \\
&=\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu} .
\end{aligned}
\]
对上式以 \(\boldsymbol{X}\) 为条件取条件期望:
\[{\rm E}(\hat{\boldsymbol\beta}\big|\boldsymbol{X})={\rm E}\left[\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu}\big|\boldsymbol{X}\right]=\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot{\rm E}\left(\boldsymbol\mu|\boldsymbol{X}\right)=\boldsymbol{\beta} .
\]
定理 2:OLS 估计量的协方差矩阵
在假定 1 至假定 4 的条件下,\({\rm Var}(\hat{\boldsymbol\beta})=\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\) 。
证明:利用无偏性证明中的结论:\(\hat{\boldsymbol{\beta}}=\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu}\) ,取条件方差得
\[\begin{aligned}
{\rm Var}(\hat{\boldsymbol\beta}|\boldsymbol{X})&={\rm Var}\left(\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu}\right) \\
&=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot{\rm Var}(\boldsymbol\mu|\boldsymbol{X})\cdot\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\
&=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot\sigma^2\boldsymbol{I}_n\cdot\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\
&=\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\
&=\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} .
\end{aligned}
\]
该定理表明,\(\hat\beta_j\) 的方差可以由 \(\sigma^2\) 乘以 \(\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\) 的主对角线上的第 \(j\) 个元素得到。
定理 3:高斯-马尔科夫定理
在假定 1 至假定 4 的条件下,\(\hat{\boldsymbol\beta}\) 是最佳线性无偏估计。
证明:只需证明有效性,即证明 \(\hat{\boldsymbol\beta}\) 在 \(\boldsymbol\beta\) 的所有线性无偏估计中拥有最小方差。
假设 \(\tilde{\boldsymbol\beta}=\boldsymbol{A}^{\rm T}\boldsymbol{Y}\) 是 \(\boldsymbol\beta\) 的其他任意一个线性无偏估计量,其中 \(\boldsymbol{A}\) 是一个 \(n\times(k+1)\) 的矩阵。由于 \(\tilde{\boldsymbol\beta}\) 满足以 \(\boldsymbol{X}\) 为条件的无偏性,因此矩阵 \(\boldsymbol{A}\) 就不能任意取得,需要对矩阵 \(\boldsymbol{A}\) 加以限制。写出
\[\tilde{\boldsymbol\beta}=\boldsymbol{A}^{\rm T}\boldsymbol{Y}=\boldsymbol{A}^{\rm T}\left(\boldsymbol{X\beta}+\boldsymbol{\mu}\right) =\left(\boldsymbol{A}^{\rm T}\boldsymbol{X}\right)\boldsymbol{\beta}+\boldsymbol{A}^{\rm T}\boldsymbol{\mu} .
\]
取条件期望得
\[\begin{aligned}
{\rm E}(\tilde{\boldsymbol{\beta}}|\boldsymbol{X})&={\rm E}\left[\left(\boldsymbol{A}^{\rm T}\boldsymbol{X}\right)\boldsymbol{\beta}+\boldsymbol{A}^{\rm T}\boldsymbol{\mu}\big|\boldsymbol{X}\right] \\
&=\boldsymbol{A}^{\rm T}\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{A}^{\rm T}\cdot{\rm E}({\mu}\big|\boldsymbol{X})\\
&=\boldsymbol{A}^{\rm T}\boldsymbol{X}\boldsymbol{\beta} .
\end{aligned}
\]
由无偏性 \({\rm E}(\tilde{\boldsymbol{\beta}}|\boldsymbol{X})=\boldsymbol\beta\) ,必须有 \(\boldsymbol{A}^{\rm T}\boldsymbol{X}\boldsymbol{\beta}=\boldsymbol{\beta}\) 对所有的 \(\boldsymbol\beta\) 都成立,因此有矩阵方程 \(\boldsymbol{A}^{\rm T}\boldsymbol{X}=\boldsymbol{I}_{k+1}\) 成立。该方程刻画了 \(\boldsymbol\beta\) 的所有线性无偏估计量的共同特征。
计算方差:
\[{\rm Var}(\tilde{\boldsymbol\beta}|\boldsymbol{X})=\boldsymbol{A}^{\rm T}{\rm Var}(\boldsymbol\mu|\boldsymbol{X})\boldsymbol{A}=\sigma^2\boldsymbol{A}^{\rm T}\boldsymbol{A} .
\]
因此,
\[\begin{aligned}
{\rm Var}(\tilde{\boldsymbol\beta}|\boldsymbol{X})-{\rm Var}(\hat{\boldsymbol\beta}|\boldsymbol{X})&=\sigma^2\left[\boldsymbol{A}^{\rm T}\boldsymbol{A}-\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\right] \\
&=\sigma^2\left[\boldsymbol{A}^{\rm T}\boldsymbol{A}-\boldsymbol{A}^{\rm T}\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{A}\right] \\
&=\sigma^2\boldsymbol{A}^{\rm T}\left[\boldsymbol{I}_{n}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\right]\boldsymbol{A} \\
&\triangleq\sigma^2\boldsymbol{A}^{\rm T}\boldsymbol{M}\boldsymbol{A} .
\end{aligned}
\]
其中,定义 \(\boldsymbol{M}\triangleq\boldsymbol{I}_{n}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\) 。易证 \(\boldsymbol{M}^{\rm T}=\boldsymbol{M}\) 且 \(\boldsymbol{M}^2=\boldsymbol{M}\) 。因此 \(\boldsymbol{M}\) 是对称幂等矩阵,所以 \(\boldsymbol{A}^{\rm T}\boldsymbol{M}\boldsymbol{A}\) 对任意的 \(n\times(k+1)\) 矩阵 \(\boldsymbol{A}\) 都是半正定的,所以
\[{\rm Var}(\tilde{\boldsymbol\beta}|\boldsymbol{X})-{\rm Var}(\hat{\boldsymbol\beta}|\boldsymbol{X})\geq0 .
\]
因此,OLS 在用于估计 \(\boldsymbol\beta\) 的任何一个线性组合时总能得到最小方差,即 OLS 估计量 \(\hat{\boldsymbol\beta}\) 具有有效性。
定理 4:\(\hat\sigma^2\) 的无偏估计
在假定 1 至假定 4 的条件下,\(\hat\sigma^2\) 是 \(\sigma^2\) 的无偏估计。
证明:利用定理 3 中定义的矩阵 \(\boldsymbol{M}\) 改写残差,注意到:
\[\boldsymbol{M}\boldsymbol{X}=\boldsymbol{X}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{X}=\boldsymbol{X}-\boldsymbol{X}=0 ,
\]
因此有残差:
\[\boldsymbol{e}=\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol{\beta}} =\boldsymbol{Y}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} =\boldsymbol{M}\boldsymbol{Y}=\boldsymbol{M}\left(\boldsymbol{X\beta}+\boldsymbol{\mu}\right) =\boldsymbol{M}\boldsymbol{\mu} .
\]
计算残差平方和为:
\[{\rm SSR}=\boldsymbol{e}^{\rm T}\boldsymbol{e}=\boldsymbol\mu^{\rm T}\boldsymbol{M}^{\rm T}\boldsymbol{M}\boldsymbol{\mu}=\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu} .
\]
注意到残差平方和是一个常数,即 \(\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}\) 是一个常数,因此它本身等于它的迹,有
\[\begin{aligned}
{\rm E}\left({\rm SSR}|\boldsymbol{X}\right)&={\rm E}\left(\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}|\boldsymbol{X}\right) \\
&={\rm E}\left[{\rm tr}\left(\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}\right)\big|\boldsymbol{X}\right] \\
&={\rm E}\left[{\rm tr}\left(\boldsymbol{M}\boldsymbol{\mu}\boldsymbol\mu^{\rm T}\right)\big|\boldsymbol{X}\right] \\
&={\rm tr}\left[{\rm E}\left(\boldsymbol{M}\boldsymbol{\mu}\boldsymbol\mu^{\rm T}\right)\big|\boldsymbol{X}\right] \\
&={\rm tr}\left[\boldsymbol{M}{\rm E}\left(\boldsymbol{\mu}\boldsymbol\mu^{\rm T}\right)\big|\boldsymbol{X}\right] \\
&={\rm tr}\left[\boldsymbol{M}\sigma^2\boldsymbol{I}_n\right] \\
&=\sigma^2{\rm tr}\left(\boldsymbol{M}\right)=\sigma^2(n-k-1) .
\end{aligned}
\]
最后一个等号成立是因为
\[\begin{aligned}
{\rm tr}(\boldsymbol{M})&={\rm tr}\left[\boldsymbol{I}_{n}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\right] \\
&=n-{\rm tr}\left[\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\right]\\
&=n-{\rm tr}\left[\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{X}\right] \\
&=n-{\rm tr}(\boldsymbol{I}_{k+1})=n-k-1 .
\end{aligned}
\]
因此
\[{\rm E}(\hat\sigma^2|\boldsymbol{X})=\frac{{\rm E}\left({\rm SSR}|\boldsymbol{X}\right)}{n-k-1}=\sigma^2 .
\]
至此,我们完成了多元回归模型中没有推导的高斯-马尔科夫定理的证明,以及 \(\sigma^2\) 的无偏性证明。
四、抽样分布与统计推断
关于变量的统计推断,我们主要讨论估计参数的统计分布及其检验要求的 \(t\) 统计量。
在正态性假定下,我们可以证明在 \(\boldsymbol{X}\) 的条件下,\(\hat{\boldsymbol\beta}\) 服从均值为 \(\boldsymbol\beta\) 协方差矩阵为 \(\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\) 的多元正态分布。这是进行 \(\boldsymbol\beta\) 的统计推断的基础。接下来我们证明:
\[\frac{\hat\beta_j-\beta_j}{{\rm se}(\hat\beta_j)}\sim t(n-k-1),\quad j=0,1,2,\cdots,k .
\]
首先,由 \(\hat{\boldsymbol\beta}\) 的正态性,\({\rm sd}(\hat\beta_j)=\sigma\sqrt{c_{jj}}\) ,其中 \(c_{jj}\) 是矩阵 \(\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\) 中主对角线上的第 \(j\) 个元素,所以有
\[\frac{\hat\beta_j-\beta_j}{{\rm sd}(\hat\beta_j)}\sim N(0,\,1) .
\]
其次,我们可以证明
\[\frac{(n-k-1)\hat\sigma^2}{\sigma^2}\sim\chi^2(n-k-1) .
\]
利用对称幂等矩阵 \(\boldsymbol{M}=\boldsymbol{I}_{n}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\) ,并且 \({\rm r}(M)=n-k-1\) 有结论
\[\frac{(n-k-1)\hat\sigma^2}{\sigma^2}=\frac{\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}}{\sigma^2}=\left(\boldsymbol\mu/\sigma\right)^{\rm T}\boldsymbol{M}\left(\boldsymbol\mu/\sigma\right) ,
\]
由于 \(\boldsymbol\mu/\sigma\sim N(0,\,\boldsymbol{I}_n)\) ,根据 \(\chi^2\) 分布的性质有 \(\left(\boldsymbol\mu/\sigma\right)^{\rm T}\boldsymbol{M}\left(\boldsymbol\mu/\sigma\right)\sim\chi^2(n-k-1)\) 。
接着,我们还需要证明 \(\hat{\boldsymbol\beta}\) 和 \(\hat\sigma^2\) 是独立的。需要用到一个多元正态分布的性质。
引理:设 \(\boldsymbol{Y}\) 是一个 \(n\times 1\) 的随机向量,如果 \(\boldsymbol{Y}\sim N(0,\,\sigma^2\boldsymbol{I}_n)\) ,\(\boldsymbol{A}\) 是一个 \(k\times n\) 的非随机矩阵,而 \(\boldsymbol{B}\) 是一个 \(n\times n\) 的对称幂等矩阵,则 \(\boldsymbol{A}\boldsymbol{Y}\) 和 \(\boldsymbol{Y}^{\rm T}\boldsymbol{B}\boldsymbol{Y}\) 独立的充分必要条件是 \(\boldsymbol{AB}=0\) 。
我们知道 \(\hat{\boldsymbol\beta}=\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu}\) , \(\hat\sigma^2=\dfrac{\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}}{n-k-1}\) 。
由于 \(\boldsymbol{X}^{\rm T}\boldsymbol{M}=\boldsymbol{M}\boldsymbol{X}=0\) ,所以 \(\boldsymbol{}\)\(\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{M}=0\) 。根据上述引理知 \(\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu}\) 和 \(\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}\) 独立,所以 \(\hat{\boldsymbol\beta}\) 和 \(\hat\sigma^2\) 也是独立的。
最后我们可以写出
\[\frac{\hat\beta_j-\beta_j}{{\rm se}(\hat\beta_j)}=\frac{\hat\beta_j-\beta_j}{{\rm sd}(\hat\beta_j)}\bigg/\frac{{\rm se}(\hat\beta_j)}{{\rm sd}(\hat\beta_j)}=\frac{\hat\beta_j-\beta_j}{{\rm sd}(\hat\beta_j)}\bigg/\sqrt{\frac{\hat\sigma^2}{\sigma^2}} \sim t(n-k-1) .
\]
这个定理通过严格的数理统计的推导证明了我们用 \(\hat\sigma\) 代替 \(\sigma\) 并构造 \(t\) 统计量的合理性。
至此,我们完成了经典假设下从简单回归模型到多元回归模型的全部知识介绍,并利用矩阵形式对其中的部分统计性质进行了严格的推导证明。其中涉及的矩阵运算以及数理统计的相关性质,在此不过多介绍。不熟悉的读者可以查阅线性代数和数理统计相关教材。