数学 - 回归分析 - 第 6 章 多重共线性的情形及其处理 - 6.1 多重共线性产生的背景和原因

6.1 多重共线性产生的背景和原因

6.1.1 多重共线性的定义

多元线性回归模型有一个基本假设,就是要求设计矩阵 X 的秩 rank=p+1,即要求 X 中的列向量之间线性无关。如果存在不全为零的 p+1 个数 c0c1cp 使得

(6.1.1)c0+c1xi1+c2xi2++cpxip=0,i=1,2,,n

则自变量 x1x2xp 之间存在完全多重共线性。在实际问题中,完全的多重共线性并不多见,更常见的是式 (6.1.1) 近似成立的情况,即存在不全为零的 p+1 个数 c0c1cp 使得

(6.1.2)c0+c1xi1+c2xi2++cpxip0,i=1,2,,n

当自变量 x1x2xp 存在式 (6.1.2) 所示的关系时,称自变量 x1x2xp 之间多重共线性,也称复共线性

6.1.2 多重共线性的例子

解释变量之间完全不相关的情形是非常少见的,尤其是研究某个问题涉及的自变量较多,我们很难找到一组自变量,它们之间互不相关的,同时它们又都对因变量有显著影响。

客观地说,当某一现象涉及多个影响因素时,这些影响因素之间大多有一定的相关性。当它们之间的相关性较弱时,我们一般认为符合多元线性回归模型设计矩阵的要求;当这一组变量间有较强的相关性时,就认为是一种违背多元线性回归模型基本假设的情形。

当所涉及的问题涉及时间序列资料时,由于变量间往往随时间存在共同的变化趋势,它们之间容易出现共线性。例如,我国近年来的经济增长态势良好,经济增长对各种经济现象都产生了影响,使得多种经济指标相互密切关联。

对于许多使用横截面数据建立回归方程的问题,常常也存在自变量高度相关的情形。例如,以企业的横截面数据为样本估计生产函数,由于投入要素资本 K,劳动力投入 L、科技投入 S、能源供应 E 都与企业的生产规模有关,所以它们之间存在较强的相关性。

以一个模型为例,有人在建立某地区粮食产量的回归模型时,以粮食产量为因变量 y,以化肥用量 x1,水浇地面积 x2,农业资金投入 x3 等作为自变量。从表面上我们看到 x1x2x3 都是影响粮食产量 y 的重要因素,可是建立的 y 关于 x1x2x3 的回归方程效果很差。原因在于,尽管所选自变量 x1x2x3 都是影响因变量 y 的重要因素,但是农业资金投入 x3 与化肥用量 x1,水浇地面积 x2 有很强的相关性,农业资金投入主要用于购买化肥和开发水利。进一步计算 x3 分别与 x1x2 的简单相关系数,得到 r13=0.98r23=0.99,呈现高度相关。剔除 x3 后重新建立回归模型,结果变得理想。

posted on   Black_x  阅读(781)  评论(0编辑  收藏  举报

编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示