05_多元线性回归
第5章 多元线性回归
5.1 二元线性回归
案例说明
Cobb-Dougls生成函数:
两边同时取对数,可转换为线性模型:
这就是二元线性回归模型。
代码实现
[[Chapter_05.ipynb]]
5.2 多元线性回归模型
多元线性回归模型:$$y_i=\beta_1x_{i1}+\beta_2x_{i2}+\dots+\beta_Kx_{iK}+\epsilon_i \quad (i=1,\dots,n)$$
使用矩阵表示:$$y \equiv X\beta+\epsilon$$
其中:$$\mathbf X \equiv \begin{pmatrix}
1& x_{12}& \cdots & x_{1K}\
1& x_{22}& \cdots & x_{2K}\
\vdots&\vdots&\ddots&\vdots\
1& x_{n2}& \cdots & x_{nK}\
\end{pmatrix}_{n \times K}$$
\(x_{i1}=1\),即可转化为常数项。
5.3 OLS估计量的推导
使用矩阵表示多元线性回归模型简洁明了。
目标函数:$$\min_{\hat \beta_1,\dots,\hat \beta_k} \sum_{i=1}^n e_i^2= \sum_{i=1}^n(y_i-\hat\beta_1-\hat\beta_2x_{i2}-\hat\beta_3x_{i3}-\dots-\hat\beta_K x_{iK})^2$$
- 找到\((\hat \beta_1,\hat \beta_2,\dots,\hat \beta_K)\)使残差平方和(SSR)最小。
分别求偏导,得到正规方程组:$$\mathbf X' \mathbf e=0$$
- 残差向量 \(\mathbf e \equiv (e_1 \quad e_2 \dots e_n)'\) 与每个解释变量均正交。
- 将 \(\mathbf e\) 表示为:$$\mathbf e = \mathbf y -\mathbf X \hat \beta$$
- 带入正规方程组,求解OLS估计量为:$$\hat \beta \equiv (\mathbf X’ \mathbf X)^{-1}\mathbf X'y$$
5.4 OLS的几何解释
正交性
被解释变量 \(y_i\) 的拟合值(fitted value)/预测值(predicted value)为 \(\hat y_i\) ,有:$$\hat y_i \equiv \hat\beta_1+\hat\beta_2x_{i2}+\hat\beta_3x_{i3}+\dots+\hat\beta_Kx_{iK} \quad (i=1,\dots,n)$$
用列向量表示所有个体的拟合值为\(\hat y\):$$\mathbf {\hat y} \equiv \mathbf X \mathbf {\hat \beta} $$
拟合值向量与残差向量正交:$$\mathbf {\hat y}'e=(\mathbf X \mathbf {\hat \beta})'e=\mathbf{\hat \beta}'\mathbf X 'e=0$$
线性投影
因为\(\mathbf e=\mathbf y- \mathbf X \mathbf{\hat \beta}=\mathbf y - \mathbf {\hat y}\),故:$$\mathbf y = \mathbf {\hat y}+\mathbf e$$
- 拟合值 \(\hat y\) 是被解释变量 \(y\) 向解释变量超平面 \(X\) 的线性投影(Linear projection)
- 残差 \(e\) 则是从投影处,垂直于X超平面指向 \(y\) 的直线
![[5-4OLS的几何解释_投影.png]]
5.5 拟合优度
- 拟合优度在 \([0,1]\) 之间
通过增加解释变量数和优化新增解释变量(以及已有解释变量)的系数,都可以提高\(R^2\)。因此,引入校正拟合优度来对解释变量过多(模型不够简洁)进行惩罚。
定义
校正拟合优度 \(\overline R^2\) (Adjusted \(R^2\)) 为:
- \(\sum_{i=1}^ne_i^2\)的自由度(degree of freedom)n-K:n个变量受K个正规方程约束
- \(\sum_{i=1}^n(y_i-\overline y)^2\)的自由度(n-1)
缺点:可能是负值
5.6 古典线性回归模型的假定
假定 5.1 线性假定(Linearity)
- 线性假定的本质是:回归函数是参数的线性函数
- 如果变量的边际效用不是常数,可考虑加入平方项
假定 5.2 严格外生性(Strict exogeneity) - 解释变量 和 被解释变量 相互独立
假定 5.2 不存在严格多重共线性(strict multicolinearity) - 解释变量之间是独立的
title:矩阵的秩(Rank)
矩阵的秩(Rank)是指矩阵中线性无关的行或列的最大数目。当一个矩阵是满秩的,意味着它的秩等于它的行数或列数中的较小者。
具体来说,对于一个 $( m \times n)$ 的矩阵 $( A )$,如果矩阵$( A )$ 的所有$ ( m ) $行(或者所有 $( n )$ 列)都是线性无关的,那么我们就说这个矩阵是满秩的。对于方阵(即行数和列数相等的矩阵),满秩意味着该矩阵是可逆的,也就是说存在一个逆矩阵$A^{-1}$ 使得 $(AA^{-1} = A^{-1}A = I)$ ,其中 \( I \) 是单位矩阵。
在统计学中,如果一个数据矩阵是满秩的,那么可以通过最小二乘法来估计回归模型的参数。
总结一下,矩阵满秩意味着矩阵中的行向量或列向量都是线性无关的,这通常与系统的可解性、系统的控制性和数据的估计能力等重要性质相关联。
5.7 OLS的小样本性质
OLS估计量 \(\hat \beta\) 是样本数据的函数,也是随机变量,其分布函数为抽样分布(sampling ditribution)。
古典线性回归模型假定下,OLS估计量有如下性质:
(1)线性性
OLS估计量 \(\hat \beta\) 可视为 \(y\) 的线性组合,将 \((\mathbf X’ \mathbf X)^{-1}\mathbf X'\) 视为系数矩阵,故是线性估计量。
(2)无偏性
\(\hat \beta\) 不会系统地高估或低估 \(\beta\),\(E(\hat \beta|X)=\beta\)
证明:$$\begin{equation}\begin{split}
\hat \beta - \beta&= (X'X)^{-1}X'y-\beta\
&=(X'X)^{-1}X'(X\beta+\epsilon)-\beta\
&=\beta-\beta+(X'X)^{-1}X'\epsilon\
&=(X'X)^{-1}X'\epsilon
\end{split}\end{equation}$$
定义 \(A \equiv (X'X)^{-1}X'\),上式两边对X求条件期望得 \(E(\hat \beta|X)=\beta\)
进一步还可以得到:\(E(\hat \beta)=E_XE(\hat \beta|X)=E_X(\beta)=\beta\)
(3)估计量 \(\hat \beta\) 的协方差矩阵
假定 5.4 球形扰动项\(Var(\epsilon | X)= \sigma^2 \mathbf I_n\),即扰动项满足同方差和无自相关性, 其中:$$Var(\epsilon | X)= \sigma^2 \mathbf I_n=\begin{pmatrix}\sigma^2 \quad 0 \quad \dots \quad0 \
0 \quad \sigma^2 \quad \dots \quad 0 \ \vdots \quad \vdots \quad \ddots \quad \vdots \ 0 \quad 0 \quad \dots \quad \sigma^2\end{pmatrix}$$
定义
条件同方差(Conditional homoskedasticity):主对角线元素均相同
条件异方差(Conditional Heterskedasticity):主对角线元素不完全相同
自相关(autocorrelation / series correlation):非对角线元素不全为0
则有:
引入球形扰动项的好处:
- 证明上式的必要条件
- OLS在某种范围内是最有效的估计量
(4)高斯-马尔可夫定理(Gauss-Markov Theorem)
定理 高斯-马尔可夫定理(Gauss-Markov Theorem)
在假定5.1-5.4均成立时,最小二乘法是最佳线性物品估计(Best Linear Unbiased Estimator, BLUE)。
- 在所有的线性的无偏估计中,最小二乘法的方差最小。
(5)对扰动项方差的无偏估计
扰动项方差 \(\sigma^2 = Var(\epsilon_i)\) 可由回归方程的标准误的二次方来无偏估计。
扰动项\(\epsilon_i\) 不可观测,将残差 \(e_i\) 视为其实现值,可以得到\(\sigma^2\)的无偏估计:$$s^2 \equiv \frac{1}{n-K}\sum_{i=1}^n e_i^2$$
定义 回归方程的标准误
\(s=\sqrt {s^2}\) 为回归方程的标准误差(standard error of the regression),简称回归方程的标准误。用来衡量回归方程扰动项的波动幅度。
因此,OLS估计量 \(\hat \beta\) 的协方差矩阵可以用 \(s^2(X'X)^{-1}\)来估计。
定义 估计量的标准误
\(\sqrt{s^2(X'X)_{kk}^{-1}}\) 为OLS估计量 \(\hat \beta_k\) 的标准误差,简称标准误,记为\(SE(\hat \beta_k)\),即\[SE(\hat \beta_k) \equiv \sqrt{s^2(X'X)_{kk}^{-1}} \]
更一般地,称对某统计量的标准差的估计值(estimated standard deviation)为该统计值的标准误,作为对统计量估计误差的度量。
- 通常,在得到参数的点估计之后,还须给出相应的标准误,才能知道此点估计的准确程度。
5.8 对单个系数的t检验
检验单个系数是否有效,而不是显著,显著=落入拒绝域
(1)计量经济学中的统计推断
分类
计量经济学的统计推断方法分为两大类:
- 小样本理论(有限样本理论)
- 无论样本容量是多少,小样本理论都成立,不要求样本容量 \(n \to\infty\)
- 缺点是不同意推导其统计量的分布,需要对随机变量做很强的具体假定
- 大样本理论
- 要求样本容量 \(n \to\infty\)
检验方法
假定 5.5 在给定X的情况下,\(\epsilon|X\)的条件分布为正态分布,即\(\epsilon|X \sim N(0, \sigma^2 \mathbf I_n)\)。
考虑最简单的假设检验(hypothesized testing),对单个回归系数\(\beta_k\)进行检验。
- 原假设\(H_0\):\(\beta_k = c\)
- 备择假设\(H_1\):\(\beta_k \ne c\)
定义
假想值(hypothesized value): c,为给定常数
双边替代假设(two-sided alternative hypothesis):假设的情况即可能是\(\beta_k \lt c\),也可能是\(\beta_k \gt c\)。
双边检验(two-sided test):假设为双边替代假设的检验。拒绝域分布在两边。
沃尔德检验(Wald test):直观地,如果未知参数 \(\beta_k\) 离 c 较远,更倾向于拒绝原假设。
那么,根据 假定 5.5,且 \(\hat \beta - \beta=(X'X)^{-1}X'\epsilon = \mathbf A \mathbf \epsilon\) 是 \(\epsilon\) 的线性函数。所以$$(\hat \beta - \beta)|X \sim N(0, \sigma^2 (X'X)^{-1})$$
单独只考虑其中一个分量,有:
如果原假设 \(\beta_k = c\) 成立,有:
如果 \(\sigma^2\) 已知,通过标准化的统计量服从标准正态分布$$z_k \equiv \frac{\hat \beta_k - c}{\sqrt{\sigma^2 (X'X)_{kk}^{-1}}} \sim N(0,1)$$
定义 厌恶参数
通常 \(\sigma^2\) 是未知的,虽然我们对 \(\sigma^2\) 不感兴趣,但是它却出现在表达式里面,所以被称为厌恶参数(nuisance parameter)。
合格的检验统计量(test statistic),必须满足两个条件:
- 能够根据样本数据计算出来
- 它的概率分布已知
用估计量\(s^2\)来替代 \(\sigma^2\) 就可以得到 t 统计量(t-statistic):$$t \equiv \frac{估计量-假想值}{估计量的标准误} $$
t 统计量度量估计量(\(\hat \beta_k\))距离假想值(c)的距离,并以估计量的标准误(\(SE(\hat \beta_k)\))作为距离的度量单位,即距离为 t 个标准误。
(2)t 检验
定理 t-统计量的概率分布
在 假定 5.1-5.5均满足的情况下,且原假设“\(H_0\):\(\beta_k = c\)”也成立,t统计量服从自由度为(n-K)的t分布:$$t_k \equiv \frac{\hat \beta_k - c}{SE(\hat \beta_k) } \sim t (n-K)$$
1. t 检验的步骤
- 第一步:计算 t 统计量,记为\(t_k\)。
- 若原假设成立,\(|t_k|\)大概率很小
- 若备择假设成立,\(|t_k|\)很大
- 第二步:计算显著性水平为 \(\alpha\) 的临界值 \(t_{\alpha/2} (n-K)\),其中$$P{T \gt t_{\alpha/2} (n-K)} = P{T \lt -t_{\alpha/2} (n-K)} = \frac{\alpha}{2}$$
- 通常取 \(\alpha=5\%\)
- 第三步:如果 \(|t_k| \ge t_{\alpha/2} (n-K)\),则落入拒绝域(reject region),拒绝原假设\(H_0\);反之,落入接受域,接受原假设\(H_0\)。
2.计算p值
假设检验的逻辑是,如果一次抽样中发生了小概率事件,则拒绝原假设。小到何种程度,用p值来衡量。在t检验中,p值(p-value):
定义 p值
称原假设可被拒绝的最小显著性水平为此假设检验问题的p值。
p值的优势:
- 比临界值更有信息量
- 操作简便,直接与显著性水平比较,直观。
3.计算置信区间
有时还需要做区间估计,即参数取值的范围。
定义 置信区间
假设置信度(confidence level)为\((1-\alpha)\),置信区间就是使该区间覆盖真实参数的概率为\((1-\alpha)\)的取值范围。
t统计量的置信区间:$$[\hat \beta_k-t_{\alpha/2}SE(\hat \beta_k),\hat \beta_k+t_{\alpha/2}SE(\hat \beta_k)]$$
- 标准误越大,置信区间越宽,对参数 \(\hat \beta_k\) 的估计越不精确
- 置信区间是随机区间,随样本不同而不同
4.单边检验
有时也需要进行单边检验。
拒绝域只在概率分布的左侧或右侧。
5.两类错误
在假设检验时,可能犯下两类错误:
定义 第 \(I\) 类错误(Type I Error)
虽然原假设为真,但却根据观测数据做出了拒绝原假设的错误判断,即“弃真”。第\(I\)类错误的发生概率为:$$P(拒绝H_0 |H_0)=P(检验统计量落入拒绝域|H_0)=\alpha$$
定义 第\(II\)类错误(Type II Error)
虽然原假设为假,但却根据观测数据做出了接受原假设的错误判断,即“存伪”。第\(II\)类错误的发生概率为:$$P(接受H_0 |H_1)=P(检验统计量落入接受域|H_1)$$
- 第\(I\)类错误发生的概率很容易计算,但第\(II\)类错误发生的概率很难计算。
- 在进行假设检验时,一般先指定可接受的发生第\(I\)类错误的最大概率,即显著性水平,而不指定第\(II\)类错误的发生概率。
定义 功效(power)
称“1减去第\(II\)类错误的发生概率”为统计检验的功效:$$功效=1-P(接受H_0|H_1)=P(拒绝H_0|H_1)$$
功效为在原假设为错误的情况下,拒绝原假设的概率。
5.9 对线性假设的F检验
有时还需要检验整个回归方程是否显著,即除常数项外,所有解释变量的回归系数是否都为零。
F统计量
定理 【F统计量的概率分布】在 假定 5.1-5.5均满足,且原假设“\(H_0\):\(\mathbf {R \hat \beta}=\mathbf r\)”也成立的情况下,则F统计量服从自由度为\((m,n-k)\)的F分布
F统计量形成的逻辑:
- 需要检验的问题是“解释变量的回归系数是否全部为零”,则
- 要验证原假设:\(H_0:\beta_2=\cdots=\beta_K=0\)
- 实际就是验证:\(H_0:\beta_2=0,\beta_3=0,\cdots,\beta_K=0\)
- 这样的联合检验可以表达为:\(H_0:R_{m\times K}\beta_{K\times1}=r_{m\times1}\)
- \(r\):是m维列向量
- \(R\) :满行秩,没有多余和自相矛盾的行
- 根据[沃尔德检验],如果\(H_0\)成立,则(\(R\hat\beta-r\))应比较接近0,其中 \(\beta\) 由 \(\hat \beta\) 估计。
- 它的接近程度可用二次型来衡量:\((R\hat\beta-r)'[Var(R\hat\beta-r)]^{-1}(R\hat\beta-r)\)
- \(Var(R\hat\beta-r)\)进一步的可表示为:\(\sigma^2R(X‘X)^{-1}R'\)
- \(Var(R\hat\beta-r)=Var(R\hat\beta)\)
F检验的步骤
如下:
- 第一步:计算F统计量
- 第二步:计算显著性水平为 \(\alpha\) 的临界值\(F_a(m,n-K)\)
- 其中:\(P\{\tilde F > F_{\alpha}(m,n-K)\}=\alpha\)
- 第三步:比较F统计量与临界值
- 如果F统计量大于临界值即落入右边拒绝域,则拒绝\(H_0\)
- 如果F统计量小于临界值即落入左边接受域,则接受\(H_0\)
- 另外:也可以使用p值
5.10 F统计量的似然比原理表达式
在做假设检验时,如果接受原假设,则可将此原假设作为约束条件,代入最小二乘法的最优化问题。
定义 似然比检验(Likelihood Ratio test ,LR)
通过比较“条件极值”和“无条件极值”而进行的检验,统称似然比检验。
F统计量的另一种表达:
- 考虑有约束的极值问题:$$\begin{align}
&\min_{\hat \beta}SSR(\hat\beta) \ &s.t. \quad R\hat\beta=r \end{align}$$ - 如果 \(H_0:R\beta=r\) 正确,则加上此约束不应使残差平方和增大很多。
- 换句话说,在 \(H_0\) 正确的情况下,(\(SSR^*-SSR\))不应很大。由此可构成如下F统计量:$$F=\frac{(SSR^*-SSR)/m}{SSR/(n-K)}$$其中:
- \(SSR\):无约束的残差平方和
- \(SSR^*\):有约束的残差平方和
- \(m\):约束条件的个数,矩阵 \(R\) 的秩
- \(n\):样本个数
- \(K\):参数个数,\(\beta\) 的维度
- 还可以用拟合优度来表示F统计量$$F=\frac{(R2-R_*2)/m}{(1-R^2)/(n-K)}$$
- 如果去掉约束条件后拟合优度上升越多,越应该拒绝约束条件成立的原假设。
5.11 预测
有时也用计量模型进行预测(prediction / forecasting),即给定解释变量 \(x_0\) 的(未来)取值,预测被解释变量 \(y_0\) 的取值。
假设模型对所有观测值都成立
- 有 \(y_0=x_0'\beta+\epsilon_0 \equiv x\)
- 对 \(y_0\) 的点预测为:\(\hat y_0 = x_0'\hat \beta\)
- 点预测 \(\hat y_0\) 是无偏估计
- 预测误差 (\(\hat y_0 - y_0\))的方差:\(Var()=\sigma^2+\sigma^2x_0'(X'X)^{-1}x_0\)
- 来自抽样误差
- 来自\(y_0\)的不确定性
- 预测误差的标准误 :\(SE(\hat y_0 - y_0) = s \sqrt{1+x_0'(X'X)^{-1}x_0}\)
- 可构建t统计量
- 可确定置信区间
5.12 多元线性回归的python命令及实例
案例
数据:grilic.dta
对以下方程进行多元线性回归:$$\ln{w}=\beta_1+\beta_2s+\beta_3expr+\beta_4tenure+\beta_5smsa+\beta_6rns+\epsilon$$
代码
[[Chapter_05.ipynb]]
习题
部分答案参见代码文件。
习题中出现的经典文献:[[5.6-Geography and Economic Development.pdf]]