05_多元线性回归
第5章 多元线性回归
5.1 二元线性回归
案例说明
Cobb-Dougls生成函数:
两边同时取对数,可转换为线性模型:
这就是二元线性回归模型。
代码实现
[[Chapter_05.ipynb]]
5.2 多元线性回归模型
多元线性回归模型:
使用矩阵表示:
其中:
5.3 OLS估计量的推导
使用矩阵表示多元线性回归模型简洁明了。
目标函数:
- 找到
使残差平方和(SSR)最小。
分别求偏导,得到正规方程组:
- 残差向量
与每个解释变量均正交。 - 将
表示为: - 带入正规方程组,求解OLS估计量为:
5.4 OLS的几何解释
正交性
被解释变量
用列向量表示所有个体的拟合值为
拟合值向量与残差向量正交:
线性投影
因为
- 拟合值
是被解释变量 向解释变量超平面 的线性投影(Linear projection) - 残差
则是从投影处,垂直于X超平面指向 的直线
![[5-4OLS的几何解释_投影.png]]
5.5 拟合优度
- 拟合优度在
之间
通过增加解释变量数和优化新增解释变量(以及已有解释变量)的系数,都可以提高
定义
校正拟合优度
的自由度(degree of freedom)n-K:n个变量受K个正规方程约束 的自由度(n-1)
缺点:可能是负值
5.6 古典线性回归模型的假定
假定 5.1 线性假定(Linearity)
- 线性假定的本质是:回归函数是参数的线性函数
- 如果变量的边际效用不是常数,可考虑加入平方项
假定 5.2 严格外生性(Strict exogeneity) - 解释变量 和 被解释变量 相互独立
假定 5.2 不存在严格多重共线性(strict multicolinearity) - 解释变量之间是独立的
title:矩阵的秩(Rank)
矩阵的秩(Rank)是指矩阵中线性无关的行或列的最大数目。当一个矩阵是满秩的,意味着它的秩等于它的行数或列数中的较小者。
具体来说,对于一个 $( m \times n)$ 的矩阵 $( A )$,如果矩阵$( A )$ 的所有$ ( m ) $行(或者所有 $( n )$ 列)都是线性无关的,那么我们就说这个矩阵是满秩的。对于方阵(即行数和列数相等的矩阵),满秩意味着该矩阵是可逆的,也就是说存在一个逆矩阵$A^{-1}$ 使得 $(AA^{-1} = A^{-1}A = I)$ ,其中 \( I \) 是单位矩阵。
在统计学中,如果一个数据矩阵是满秩的,那么可以通过最小二乘法来估计回归模型的参数。
总结一下,矩阵满秩意味着矩阵中的行向量或列向量都是线性无关的,这通常与系统的可解性、系统的控制性和数据的估计能力等重要性质相关联。
5.7 OLS的小样本性质
OLS估计量
古典线性回归模型假定下,OLS估计量有如下性质:
(1)线性性
OLS估计量
(2)无偏性
证明:
定义
进一步还可以得到:
(3)估计量 的协方差矩阵
假定 5.4 球形扰动项
定义
条件同方差(Conditional homoskedasticity):主对角线元素均相同
条件异方差(Conditional Heterskedasticity):主对角线元素不完全相同
自相关(autocorrelation / series correlation):非对角线元素不全为0
则有:
引入球形扰动项的好处:
- 证明上式的必要条件
- OLS在某种范围内是最有效的估计量
(4)高斯-马尔可夫定理(Gauss-Markov Theorem)
定理 高斯-马尔可夫定理(Gauss-Markov Theorem)
在假定5.1-5.4均成立时,最小二乘法是最佳线性物品估计(Best Linear Unbiased Estimator, BLUE)。
- 在所有的线性的无偏估计中,最小二乘法的方差最小。
(5)对扰动项方差的无偏估计
扰动项方差
扰动项
定义 回归方程的标准误
为回归方程的标准误差(standard error of the regression),简称回归方程的标准误。用来衡量回归方程扰动项的波动幅度。
因此,OLS估计量
定义 估计量的标准误
为OLS估计量 的标准误差,简称标准误,记为 ,即
更一般地,称对某统计量的标准差的估计值(estimated standard deviation)为该统计值的标准误,作为对统计量估计误差的度量。
- 通常,在得到参数的点估计之后,还须给出相应的标准误,才能知道此点估计的准确程度。
5.8 对单个系数的t检验
检验单个系数是否有效,而不是显著,显著=落入拒绝域
(1)计量经济学中的统计推断
分类
计量经济学的统计推断方法分为两大类:
- 小样本理论(有限样本理论)
- 无论样本容量是多少,小样本理论都成立,不要求样本容量
- 缺点是不同意推导其统计量的分布,需要对随机变量做很强的具体假定
- 无论样本容量是多少,小样本理论都成立,不要求样本容量
- 大样本理论
- 要求样本容量
- 要求样本容量
检验方法
假定 5.5 在给定X的情况下,
考虑最简单的假设检验(hypothesized testing),对单个回归系数
- 原假设
: - 备择假设
:
定义
假想值(hypothesized value): c,为给定常数
双边替代假设(two-sided alternative hypothesis):假设的情况即可能是,也可能是 。
双边检验(two-sided test):假设为双边替代假设的检验。拒绝域分布在两边。
沃尔德检验(Wald test):直观地,如果未知参数离 c 较远,更倾向于拒绝原假设。
那么,根据 假定 5.5,且
单独只考虑其中一个分量,有:
如果原假设
如果
定义 厌恶参数
通常是未知的,虽然我们对 不感兴趣,但是它却出现在表达式里面,所以被称为厌恶参数(nuisance parameter)。
合格的检验统计量(test statistic),必须满足两个条件:
- 能够根据样本数据计算出来
- 它的概率分布已知
用估计量 来替代 就可以得到 t 统计量(t-statistic):
t 统计量度量估计量( )距离假想值(c)的距离,并以估计量的标准误( )作为距离的度量单位,即距离为 t 个标准误。
(2)t 检验
定理 t-统计量的概率分布
在 假定 5.1-5.5均满足的情况下,且原假设“
1. t 检验的步骤
- 第一步:计算 t 统计量,记为
。- 若原假设成立,
大概率很小 - 若备择假设成立,
很大
- 若原假设成立,
- 第二步:计算显著性水平为
的临界值 ,其中- 通常取
- 通常取
- 第三步:如果
,则落入拒绝域(reject region),拒绝原假设 ;反之,落入接受域,接受原假设 。
2.计算p值
假设检验的逻辑是,如果一次抽样中发生了小概率事件,则拒绝原假设。小到何种程度,用p值来衡量。在t检验中,p值(p-value):
定义 p值
称原假设可被拒绝的最小显著性水平为此假设检验问题的p值。
p值的优势:
- 比临界值更有信息量
- 操作简便,直接与显著性水平比较,直观。
3.计算置信区间
有时还需要做区间估计,即参数取值的范围。
定义 置信区间
假设置信度(confidence level)为,置信区间就是使该区间覆盖真实参数的概率为 的取值范围。
t统计量的置信区间:
- 标准误越大,置信区间越宽,对参数
的估计越不精确 - 置信区间是随机区间,随样本不同而不同
4.单边检验
有时也需要进行单边检验。
拒绝域只在概率分布的左侧或右侧。
5.两类错误
在假设检验时,可能犯下两类错误:
定义 第
类错误(Type I Error)
虽然原假设为真,但却根据观测数据做出了拒绝原假设的错误判断,即“弃真”。第类错误的发生概率为:
定义 第
类错误(Type II Error)
虽然原假设为假,但却根据观测数据做出了接受原假设的错误判断,即“存伪”。第类错误的发生概率为:
- 第
类错误发生的概率很容易计算,但第 类错误发生的概率很难计算。 - 在进行假设检验时,一般先指定可接受的发生第
类错误的最大概率,即显著性水平,而不指定第 类错误的发生概率。
定义 功效(power)
称“1减去第类错误的发生概率”为统计检验的功效:
功效为在原假设为错误的情况下,拒绝原假设的概率。
5.9 对线性假设的F检验
有时还需要检验整个回归方程是否显著,即除常数项外,所有解释变量的回归系数是否都为零。
F统计量
定理 【F统计量的概率分布】在 假定 5.1-5.5均满足,且原假设“
F统计量形成的逻辑:
- 需要检验的问题是“解释变量的回归系数是否全部为零”,则
- 要验证原假设:
- 实际就是验证:
- 这样的联合检验可以表达为:
:是m维列向量 :满行秩,没有多余和自相矛盾的行
- 根据[沃尔德检验],如果
成立,则( )应比较接近0,其中 由 估计。 - 它的接近程度可用二次型来衡量:
进一步的可表示为:
F检验的步骤
如下:
- 第一步:计算F统计量
- 第二步:计算显著性水平为
的临界值- 其中:
- 其中:
- 第三步:比较F统计量与临界值
- 如果F统计量大于临界值即落入右边拒绝域,则拒绝
- 如果F统计量小于临界值即落入左边接受域,则接受
- 如果F统计量大于临界值即落入右边拒绝域,则拒绝
- 另外:也可以使用p值
5.10 F统计量的似然比原理表达式
在做假设检验时,如果接受原假设,则可将此原假设作为约束条件,代入最小二乘法的最优化问题。
定义 似然比检验(Likelihood Ratio test ,LR)
通过比较“条件极值”和“无条件极值”而进行的检验,统称似然比检验。
F统计量的另一种表达:
- 考虑有约束的极值问题:
- 如果
正确,则加上此约束不应使残差平方和增大很多。 - 换句话说,在
正确的情况下,( )不应很大。由此可构成如下F统计量: 其中: :无约束的残差平方和 :有约束的残差平方和 :约束条件的个数,矩阵 的秩 :样本个数 :参数个数, 的维度
- 还可以用拟合优度来表示F统计量$$F=\frac{(R2-R_*2)/m}{(1-R^2)/(n-K)}$$
- 如果去掉约束条件后拟合优度上升越多,越应该拒绝约束条件成立的原假设。
5.11 预测
有时也用计量模型进行预测(prediction / forecasting),即给定解释变量
假设模型对所有观测值都成立
- 有
- 对
的点预测为:- 点预测
是无偏估计 - 预测误差 (
)的方差:- 来自抽样误差
- 来自
的不确定性
- 预测误差的标准误 :
- 可构建t统计量
- 可确定置信区间
- 点预测
5.12 多元线性回归的python命令及实例
案例
数据:grilic.dta
对以下方程进行多元线性回归:
代码
[[Chapter_05.ipynb]]
习题
部分答案参见代码文件。
习题中出现的经典文献:[[5.6-Geography and Economic Development.pdf]]
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」