数学 - 回归分析 - 第 6 章 多重共线性的情形及其处理 - 6.1 多重共线性产生的背景和原因
6.1 多重共线性产生的背景和原因
6.1.1 多重共线性的定义
多元线性回归模型有一个基本假设,就是要求设计矩阵 \(X\) 的秩 \(\text{rank} = p+1\),即要求 \(X\) 中的列向量之间线性无关。如果存在不全为零的 \(p+1\) 个数 \(c_0\),\(c_1\),\(\cdots\),\(c_p\) 使得
则自变量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 之间存在完全多重共线性。在实际问题中,完全的多重共线性并不多见,更常见的是式 \((6.1.1)\) 近似成立的情况,即存在不全为零的 \(p+1\) 个数 \(c_0\),\(c_1\),\(\cdots\),\(c_p\) 使得
当自变量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 存在式 \((6.1.2)\) 所示的关系时,称自变量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 之间多重共线性,也称复共线性。
6.1.2 多重共线性的例子
解释变量之间完全不相关的情形是非常少见的,尤其是研究某个问题涉及的自变量较多,我们很难找到一组自变量,它们之间互不相关的,同时它们又都对因变量有显著影响。
客观地说,当某一现象涉及多个影响因素时,这些影响因素之间大多有一定的相关性。当它们之间的相关性较弱时,我们一般认为符合多元线性回归模型设计矩阵的要求;当这一组变量间有较强的相关性时,就认为是一种违背多元线性回归模型基本假设的情形。
当所涉及的问题涉及时间序列资料时,由于变量间往往随时间存在共同的变化趋势,它们之间容易出现共线性。例如,我国近年来的经济增长态势良好,经济增长对各种经济现象都产生了影响,使得多种经济指标相互密切关联。
对于许多使用横截面数据建立回归方程的问题,常常也存在自变量高度相关的情形。例如,以企业的横截面数据为样本估计生产函数,由于投入要素资本 \(K\),劳动力投入 \(L\)、科技投入 \(S\)、能源供应 \(E\) 都与企业的生产规模有关,所以它们之间存在较强的相关性。
以一个模型为例,有人在建立某地区粮食产量的回归模型时,以粮食产量为因变量 \(y\),以化肥用量 \(x_1\),水浇地面积 \(x_2\),农业资金投入 \(x_3\) 等作为自变量。从表面上我们看到 \(x_1\),\(x_2\),\(x_3\) 都是影响粮食产量 \(y\) 的重要因素,可是建立的 \(y\) 关于 \(x_1\),\(x_2\),\(\cdots\),\(x_3\) 的回归方程效果很差。原因在于,尽管所选自变量 \(x_1\),\(x_2\),\(x_3\) 都是影响因变量 \(y\) 的重要因素,但是农业资金投入 \(x_3\) 与化肥用量 \(x_1\),水浇地面积 \(x_2\) 有很强的相关性,农业资金投入主要用于购买化肥和开发水利。进一步计算 \(x_3\) 分别与 \(x_1\),\(x_2\) 的简单相关系数,得到 \(r_{13} = 0.98\),\(r_{23} = 0.99\),呈现高度相关。剔除 \(x_3\) 后重新建立回归模型,结果变得理想。
浙公网安备 33010602011771号