数学 - 回归分析 - 第 6 章 多重共线性的情形及其处理 - 6.1 多重共线性产生的背景和原因
6.1 多重共线性产生的背景和原因
6.1.1 多重共线性的定义
多元线性回归模型有一个基本假设,就是要求设计矩阵 的秩 ,即要求 中的列向量之间线性无关。如果存在不全为零的 个数 ,,, 使得
则自变量 ,,, 之间存在完全多重共线性。在实际问题中,完全的多重共线性并不多见,更常见的是式 近似成立的情况,即存在不全为零的 个数 ,,, 使得
当自变量 ,,, 存在式 所示的关系时,称自变量 ,,, 之间多重共线性,也称复共线性。
6.1.2 多重共线性的例子
解释变量之间完全不相关的情形是非常少见的,尤其是研究某个问题涉及的自变量较多,我们很难找到一组自变量,它们之间互不相关的,同时它们又都对因变量有显著影响。
客观地说,当某一现象涉及多个影响因素时,这些影响因素之间大多有一定的相关性。当它们之间的相关性较弱时,我们一般认为符合多元线性回归模型设计矩阵的要求;当这一组变量间有较强的相关性时,就认为是一种违背多元线性回归模型基本假设的情形。
当所涉及的问题涉及时间序列资料时,由于变量间往往随时间存在共同的变化趋势,它们之间容易出现共线性。例如,我国近年来的经济增长态势良好,经济增长对各种经济现象都产生了影响,使得多种经济指标相互密切关联。
对于许多使用横截面数据建立回归方程的问题,常常也存在自变量高度相关的情形。例如,以企业的横截面数据为样本估计生产函数,由于投入要素资本 ,劳动力投入 、科技投入 、能源供应 都与企业的生产规模有关,所以它们之间存在较强的相关性。
以一个模型为例,有人在建立某地区粮食产量的回归模型时,以粮食产量为因变量 ,以化肥用量 ,水浇地面积 ,农业资金投入 等作为自变量。从表面上我们看到 ,, 都是影响粮食产量 的重要因素,可是建立的 关于 ,,, 的回归方程效果很差。原因在于,尽管所选自变量 ,, 都是影响因变量 的重要因素,但是农业资金投入 与化肥用量 ,水浇地面积 有很强的相关性,农业资金投入主要用于购买化肥和开发水利。进一步计算 分别与 , 的简单相关系数,得到 ,,呈现高度相关。剔除 后重新建立回归模型,结果变得理想。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现