数学 - 回归分析 - 第 6 章 多重共线性的情形及其处理 - 6.3 多重共线性的诊断
6.3 多重共线性的诊断
一般情况下,当回归方程的解释变量之间存在很强的线性关系,回归方程的检验高度显著时,有些与因变量 \(y\) 的简单相关系数绝对值很大的自变量,其回归系数不能通过显著性检验,甚至有的回归系数所带符号与实际意义不符,这时我们认为变量间存在多重共线性。下面介绍几种主要方法,来诊断多重共线性或是度量多重共线性的严重程度。
6.3.1 方差扩大因子法
对自变量做中心标准化,则 \(X^{*'} X^{*}=(r_{ij})\) 为自变量的相关阵。我们记
称其主对角元素 \(\text{VIF}_j = c_{jj}\) 为自变量 \(x_j\) 的方差扩大因子(variance inflation factor)。根据 \(3.3.3\) 节中回归参数的方差可知
式中,\(L_{jj}\) 是 \(x_j\) 的离差平方和。
由式 \((6.3.2)\) 可知,用 \(c_{jj}\) 作为衡量自变量 \(x_j\) 的方差扩大程度的因子是恰如其分的。若我们记 \(R_j^2\) 为自变量 \(x_j\) 对其余 \(p-1\) 个自变量的复决定系数,可以证明
式 \((6.3.3)\) 也可以作为方差扩大因子 \(\text{VIF}_j\) 的定义,由此式可知 \(\text{VIF}_j \geqslant 1\)。
\(R_j^2\) 度量了自变量 \(x_j\) 与其余 \(p-1\) 个自变量的线性相关程度,这种相关程度越强,说明自变量之间的多重共线性越严重,\(R_j^2\) 越接近于 \(1\),方差扩大因子 \(\text{VIF}_j\) 就越大。反之,自变量 \(x_j\) 与其余 \(p-1\) 个自变量的线性相关程度越弱,说明自变量之间的多重共线性越弱,\(R_j^2\) 越接近于 \(0\),方差扩大因子 \(\text{VIF}_j\) 就越接近 \(1\)。
由此可见,\(\text{VIF}_j\) 的大小反映了自变量之间是否存在多重共线性,因此可用它来度量多重共线性的严重程度。经验表明,当 \(\text{VIF}_j \geqslant 10\) 时,就说明自变量 \(x_j\) 与其余自变量之间存在严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。
也可以用 \(p\) 个自变量所对应的方差扩大因子的平均数来度量多重共线性。即
当 \(\overline{\text{VIF}}\) 远远大于 \(1\) 时,就表示存在严重的多重共线性问题。
6.3.2 特征根判定法
(1) 特征根分析
根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。因而,当行列式 \(|X'X| \approx 0\) 时,矩阵 \(X'X\) 至少有一个特征根近似为零。反之可以证明,当矩阵 \(X'X\) 至少有一个特征根近似为零时,\(X\) 的列向量间必然存在多重共线性,证明如下:
记 \(X = (X_0, X_1, \cdots, X_p)\),其中 \(X_i\) 为 \(X\) 的列向量,\(X_0=(1,1,\cdots,1)'\) 是元素全为 \(1\) 的 \(n\) 维列向量。\(\lambda\) 是矩阵 \(X'X\) 的一个近似为零的特征根,\(\lambda \approx 0\),\(\bm{c}=(c_0,c_1,\cdots,c_p)'\) 是对应于特征根 \(\lambda\) 的单位特征向量,则
上式两边左乘 \(\bm{c}'\) 得到
从而有
进一步写成分量形式为
上式正是式 \((6.1.2)\) 所定义的多重共线性关系。
如果矩阵 \(X'X\) 有多个特征根近似为零,在上面的证明中,取每个特征根的特征向量为标准化正交向量,即可证明:\(X'X\) 有多少个特征根接近零,设计矩阵 \(X\) 就有多少个多重共线性关系,并且这些多重共线性关系的系数向量就等于那些接近零的特征根对应的特征向量。
(2) 条件数
特征根分析表明,当矩阵 \(X'X\) 有一个特征根近似为零时,设计矩阵 \(X\) 的列向量间必然存在多重共线性关系,并且 \(X'X\) 有多少个特征根接近零,\(X\) 就有多少个多重共线性关系。那么特征根近似为零的标准如何确定?也用条件数确定。
记 \(X'X\) 的最大特征根为 \(\lambda_m\),我们称
为特征根 \(\lambda_i\) 的条件数。在某些时候,条件数定义为 \(k_i = \lambda_m / \lambda_i\),没有开平方根。
条件数度量了矩阵 \(X'X\) 特征根的散布程度,可以用来判断多重共线性是否存在以及多重共线性的严重程度。通常认为 \(0 < k < 10\) 时,设计矩阵 \(X\) 没有多重共线性;\(10 \leqslant k < 100\) 时,存在较强的多重共线性;\(k \geqslant 100\) 时,存在严重的多重共线性。
6.3.3 直观判定法
方差扩大因子法和条件数方法给出了识别多重共线性的数量标准。需要注意的是,这种数量标准并不是识别多重共线性的绝对标准,还可以结合一些直观方法综合识别多重共线性。
如前面提到的,当出现与因变量 \(y\) 的简单相关系数绝对值很大的自变量,但是其偏回归系数不能通过显著性检验,甚至出现回归系数符号与实际意义相反的情况时,就认为变量间存在多重共线性。这里把这些直观判断综述如下:
-
当增加或剔除一个自变量,其他自变量的回归系数的估计值或显著性发生较大变化时,我们就认为回归方程存在严重的多重共线性。
-
当定性分析认为一些重要的自变量在回归方程中没有通过显著性检验时,可初步判断存在严重的多重共线性。
-
当与自变量之间的简单相关系数绝对值很大的自变量在回归方程中没有通过显著性检验时,可初步判断存在严重的多重共线性。
-
当有些自变量的回归系数的数值大小与预期相差很大,甚至正负号与定性分析结果相反时,存在严重的多重共线性。
-
在自变量的相关矩阵中,当自变量间的相关系数较大时会存在多重共线性问题。
-
当一些重要的自变量的回归系数的标准误差较大时,我们认为可能存在多重共线性。
浙公网安备 33010602011771号