05_多元线性回归

第5章 多元线性回归

5.1 二元线性回归

案例说明

Cobb-Dougls生成函数:

yi=αkiβliγeϵi

两边同时取对数,可转换为线性模型:

lnyi=lnα+βlnki+γlnli+ϵi

这就是二元线性回归模型。

代码实现

[[Chapter_05.ipynb]]

5.2 多元线性回归模型

多元线性回归模型:yi=β1xi1+β2xi2++βKxiK+ϵi(i=1n)
使用矩阵表示:yXβ+ϵ
其中:X(1x12x1K 1x22x2K  1xn2xnK )n×K
xi1=1,即可转化为常数项。

5.3 OLS估计量的推导

使用矩阵表示多元线性回归模型简洁明了。

目标函数:minβ^1,,β^ki=1nei2=i=1n(yiβ^1β^2xi2β^3xi3β^KxiK)2

  • 找到(β^1,β^2,,β^K)使残差平方和(SSR)最小。

分别求偏导,得到正规方程组:Xe=0

  • 残差向量 e(e1e2en) 与每个解释变量均正交。
  • e 表示为:e=yXβ^
  • 带入正规方程组,求解OLS估计量为:β^(XX)1Xy

5.4 OLS的几何解释

正交性

被解释变量 yi 的拟合值(fitted value)/预测值(predicted value)为 y^i ,有:y^iβ^1+β^2xi2+β^3xi3++β^KxiK(i=1,,n)
用列向量表示所有个体的拟合值为y^y^Xβ^
拟合值向量与残差向量正交:y^e=(Xβ^)e=β^Xe=0

线性投影

因为e=yXβ^=yy^,故:y=y^+e

  • 拟合值 y^ 是被解释变量 y 向解释变量超平面 X 的线性投影(Linear projection)
  • 残差 e 则是从投影处,垂直于X超平面指向 y 的直线
    ![[5-4OLS的几何解释_投影.png]]

5.5 拟合优度

  • 拟合优度在 [01] 之间

通过增加解释变量数和优化新增解释变量(以及已有解释变量)的系数,都可以提高R2。因此,引入校正拟合优度来对解释变量过多(模型不够简洁)进行惩罚。

定义
校正拟合优度 R2 (Adjusted R2) 为:

R211nKi=1nei21n1i=1n(yiy)2

  • i=1nei2的自由度(degree of freedom)n-K:n个变量受K个正规方程约束
  • i=1n(yiy)2的自由度(n-1)

缺点:可能是负值

5.6 古典线性回归模型的假定

假定 5.1 线性假定(Linearity)

  • 线性假定的本质是:回归函数是参数的线性函数
  • 如果变量的边际效用不是常数,可考虑加入平方项
    假定 5.2 严格外生性(Strict exogeneity)
  • 解释变量 和 被解释变量 相互独立
    假定 5.2 不存在严格多重共线性(strict multicolinearity)
  • 解释变量之间是独立的
title:矩阵的秩(Rank)
矩阵的秩(Rank)是指矩阵中线性无关的行或列的最大数目。当一个矩阵是满秩的,意味着它的秩等于它的行数或列数中的较小者。

具体来说,对于一个 $( m \times n)$ 的矩阵 $( A )$,如果矩阵$( A )$ 的所有$ ( m ) $行(或者所有 $( n )$ 列)都是线性无关的,那么我们就说这个矩阵是满秩的。对于方阵(即行数和列数相等的矩阵),满秩意味着该矩阵是可逆的,也就是说存在一个逆矩阵$A^{-1}$ 使得 $(AA^{-1} = A^{-1}A = I)$ ,其中 \( I \) 是单位矩阵。

在统计学中,如果一个数据矩阵是满秩的,那么可以通过最小二乘法来估计回归模型的参数。

总结一下,矩阵满秩意味着矩阵中的行向量或列向量都是线性无关的,这通常与系统的可解性、系统的控制性和数据的估计能力等重要性质相关联。

5.7 OLS的小样本性质

OLS估计量 β^ 是样本数据的函数,也是随机变量,其分布函数为抽样分布(sampling ditribution)。
古典线性回归模型假定下,OLS估计量有如下性质:

(1)线性性

OLS估计量 β^ 可视为 y 的线性组合,将 (XX)1X 视为系数矩阵,故是线性估计量。

(2)无偏性

β^ 不会系统地高估或低估 βE(β^|X)=β

证明:(1)β^β=(XX)1Xyβ =(XX)1X(Xβ+ϵ)β =ββ+(XX)1Xϵ =(XX)1Xϵ
定义 A(XX)1X,上式两边对X求条件期望得 E(β^|X)=β
进一步还可以得到:E(β^)=EXE(β^|X)=EX(β)=β

(3)估计量 β^ 的协方差矩阵

假定 5.4 球形扰动项Var(ϵ|X)=σ2In,即扰动项满足同方差和无自相关性, 其中:Var(ϵ|X)=σ2In=(σ200 0σ20  00σ2)

定义
条件同方差(Conditional homoskedasticity):主对角线元素均相同
条件异方差(Conditional Heterskedasticity):主对角线元素不完全相同
自相关(autocorrelation / series correlation):非对角线元素不全为0

则有:

Var(β^|X)=σ2(XX)1

引入球形扰动项的好处:

  • 证明上式的必要条件
  • OLS在某种范围内是最有效的估计量

(4)高斯-马尔可夫定理(Gauss-Markov Theorem)

定理 高斯-马尔可夫定理(Gauss-Markov Theorem)
在假定5.1-5.4均成立时,最小二乘法是最佳线性物品估计(Best Linear Unbiased Estimator, BLUE)。

  • 在所有的线性的无偏估计中,最小二乘法的方差最小。

(5)对扰动项方差的无偏估计

扰动项方差 σ2=Var(ϵi) 可由回归方程的标准误的二次方来无偏估计。

扰动项ϵi 不可观测,将残差 ei 视为其实现值,可以得到σ2的无偏估计:s21nKi=1nei2

定义 回归方程的标准误
s=s2回归方程的标准误差(standard error of the regression),简称回归方程的标准误。用来衡量回归方程扰动项的波动幅度。

因此,OLS估计量 β^ 的协方差矩阵可以用 s2(XX)1来估计。

定义 估计量的标准误
s2(XX)kk1 为OLS估计量 β^k 的标准误差,简称标准误,记为SE(β^k),即

SE(β^k)s2(XX)kk1

更一般地,称对某统计量的标准差的估计值(estimated standard deviation)为该统计值的标准误,作为对统计量估计误差的度量。

  • 通常,在得到参数的点估计之后,还须给出相应的标准误,才能知道此点估计的准确程度。

5.8 对单个系数的t检验

检验单个系数是否有效,而不是显著,显著=落入拒绝域

(1)计量经济学中的统计推断

分类

计量经济学的统计推断方法分为两大类:

  • 小样本理论(有限样本理论)
    • 无论样本容量是多少,小样本理论都成立,不要求样本容量 n
    • 缺点是不同意推导其统计量的分布,需要对随机变量做很强的具体假定
  • 大样本理论
    • 要求样本容量 n

检验方法

假定 5.5 在给定X的情况下,ϵ|X的条件分布为正态分布,即ϵ|XN(0,σ2In)

考虑最简单的假设检验(hypothesized testing),对单个回归系数βk进行检验。

  • 原假设H0βk=c
  • 备择假设H1βkc

定义
假想值(hypothesized value): c,为给定常数
双边替代假设(two-sided alternative hypothesis):假设的情况即可能是βk<c,也可能是βk>c
双边检验(two-sided test):假设为双边替代假设的检验。拒绝域分布在两边。
沃尔德检验(Wald test):直观地,如果未知参数 βk 离 c 较远,更倾向于拒绝原假设。

那么,根据 假定 5.5,且 β^β=(XX)1Xϵ=Aϵϵ 的线性函数。所以(β^β)|XN(0,σ2(XX)1)
单独只考虑其中一个分量,有:

(β^kβk)|XN(0,σ2(XX)kk1)

如果原假设 βk=c 成立,有:

(β^kc)|XN(0,σ2(XX)kk1)

如果 σ2 已知,通过标准化的统计量服从标准正态分布zkβ^kcσ2(XX)kk1N(0,1)

定义 厌恶参数
通常 σ2 是未知的,虽然我们对 σ2 不感兴趣,但是它却出现在表达式里面,所以被称为厌恶参数(nuisance parameter)。

合格的检验统计量(test statistic),必须满足两个条件:

  1. 能够根据样本数据计算出来
  2. 它的概率分布已知
    用估计量s2来替代 σ2 就可以得到 t 统计量(t-statistic)t
    t 统计量度量估计量(β^k)距离假想值(c)的距离,并以估计量的标准误(SE(β^k))作为距离的度量单位,即距离为 t 个标准误。

(2)t 检验

定理 t-统计量的概率分布
在 假定 5.1-5.5均满足的情况下,且原假设“H0βk=c”也成立,t统计量服从自由度为(n-K)的t分布:tkβ^kcSE(β^k)t(nK)

1. t 检验的步骤

  • 第一步:计算 t 统计量,记为tk
    • 若原假设成立,|tk|大概率很小
    • 若备择假设成立,|tk|很大
  • 第二步:计算显著性水平为 α 的临界值 tα/2(nK),其中PT>tα/2(nK)=PT<tα/2(nK)=α2
    • 通常取 α=5%
  • 第三步:如果 |tk|tα/2(nK),则落入拒绝域(reject region),拒绝原假设H0;反之,落入接受域,接受原假设H0

2.计算p值

假设检验的逻辑是,如果一次抽样中发生了小概率事件,则拒绝原假设。小到何种程度,用p值来衡量。在t检验中,p值(p-value):

pvalue=P(|T|>|tk|)

定义 p值
称原假设可被拒绝的最小显著性水平为此假设检验问题的p值。

p值的优势:

  • 比临界值更有信息量
  • 操作简便,直接与显著性水平比较,直观。

3.计算置信区间

有时还需要做区间估计,即参数取值的范围。

定义 置信区间
假设置信度(confidence level)为(1α)置信区间就是使该区间覆盖真实参数的概率为(1α)的取值范围。

t统计量的置信区间:[β^ktα/2SE(β^k),β^k+tα/2SE(β^k)]

  • 标准误越大,置信区间越宽,对参数 β^k 的估计越不精确
  • 置信区间是随机区间,随样本不同而不同

4.单边检验

有时也需要进行单边检验。
拒绝域只在概率分布的左侧或右侧。

5.两类错误

在假设检验时,可能犯下两类错误:

定义 第 I 类错误(Type I Error)
虽然原假设为真,但却根据观测数据做出了拒绝原假设的错误判断,即“弃真”。第I类错误的发生概率为:P(H0|H0)=P(|H0)=α

定义 第II类错误(Type II Error)
虽然原假设为假,但却根据观测数据做出了接受原假设的错误判断,即“存伪”。第II类错误的发生概率为:P(H0|H1)=P(|H1)

  • I类错误发生的概率很容易计算,但第II类错误发生的概率很难计算。
  • 在进行假设检验时,一般先指定可接受的发生第I类错误的最大概率,即显著性水平,而不指定第II类错误的发生概率。

定义 功效(power)
称“1减去第II类错误的发生概率”为统计检验的功效:=1P(H0|H1)=P(H0|H1)

功效为在原假设为错误的情况下,拒绝原假设的概率。

5.9 对线性假设的F检验

有时还需要检验整个回归方程是否显著,即除常数项外,所有解释变量的回归系数是否都为零。

F统计量

定理 【F统计量的概率分布】在 假定 5.1-5.5均满足,且原假设“H0Rβ^=r”也成立的情况下,则F统计量服从自由度为(m,nk)的F分布

F(Rβ^r)[RXXR]1(Rβ^r)/ms2F(m,nk)

F统计量形成的逻辑:

  • 需要检验的问题是“解释变量的回归系数是否全部为零”,则
  • 要验证原假设:H0:β2==βK=0
  • 实际就是验证:H0:β2=0,β3=0,,βK=0
  • 这样的联合检验可以表达为:H0:Rm×KβK×1=rm×1
    • r:是m维列向量
    • R :满行秩,没有多余和自相矛盾的行
  • 根据[沃尔德检验],如果H0成立,则(Rβ^r)应比较接近0,其中 ββ^ 估计。
  • 它的接近程度可用二次型来衡量:(Rβ^r)[Var(Rβ^r)]1(Rβ^r)
  • Var(Rβ^r)进一步的可表示为:σ2R(XX)1R
    • Var(Rβ^r)=Var(Rβ^)

F检验的步骤

如下:

  • 第一步:计算F统计量
  • 第二步:计算显著性水平为 α 的临界值Fa(m,nK)
    • 其中:P{F~>Fα(m,nK)}=α
  • 第三步:比较F统计量与临界值
    • 如果F统计量大于临界值即落入右边拒绝域,则拒绝H0
    • 如果F统计量小于临界值即落入左边接受域,则接受H0
  • 另外:也可以使用p值

5.10 F统计量的似然比原理表达式

在做假设检验时,如果接受原假设,则可将此原假设作为约束条件,代入最小二乘法的最优化问题。

定义 似然比检验(Likelihood Ratio test ,LR)
通过比较“条件极值”和“无条件极值”而进行的检验,统称似然比检验。

F统计量的另一种表达:

  • 考虑有约束的极值问题:(2)minβ^SSR(β^) s.t.Rβ^=r
  • 如果 H0:Rβ=r 正确,则加上此约束不应使残差平方和增大很多。
  • 换句话说,在 H0 正确的情况下,(SSRSSR)不应很大。由此可构成如下F统计量:F=(SSRSSR)/mSSR/(nK)其中:
    • SSR:无约束的残差平方和
    • SSR:有约束的残差平方和
    • m:约束条件的个数,矩阵 R 的秩
    • n:样本个数
    • K:参数个数,β 的维度
  • 还可以用拟合优度来表示F统计量$$F=\frac{(R2-R_*2)/m}{(1-R^2)/(n-K)}$$
    • 如果去掉约束条件后拟合优度上升越多,越应该拒绝约束条件成立的原假设。

5.11 预测

有时也用计量模型进行预测(prediction / forecasting),即给定解释变量 x0 的(未来)取值,预测被解释变量 y0 的取值。

假设模型对所有观测值都成立

  • y0=x0β+ϵ0x
  • y0 的点预测为:y^0=x0β^
    • 点预测 y^0 是无偏估计
    • 预测误差 (y^0y0)的方差:Var()=σ2+σ2x0(XX)1x0
      • 来自抽样误差
      • 来自y0的不确定性
    • 预测误差的标准误 :SE(y^0y0)=s1+x0(XX)1x0
      • 可构建t统计量
      • 可确定置信区间

5.12 多元线性回归的python命令及实例

案例

数据:grilic.dta
对以下方程进行多元线性回归:lnw=β1+β2s+β3expr+β4tenure+β5smsa+β6rns+ϵ

代码

[[Chapter_05.ipynb]]



习题

部分答案参见代码文件。

习题中出现的经典文献:[[5.6-Geography and Economic Development.pdf]]

posted @   王大桃zzZ  阅读(276)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」
点击右上角即可分享
微信分享提示