数学 - 回归分析 - 第 7 章 岭回归 - 7.1 岭回归估计的定义
7.1 岭回归估计的定义
当设计矩阵 \(X\) 呈病态时,\(X\) 的列向量之间有较强的线性相关性,即解释变量间存在严重的多重共线性。在这种情况下,用普通最小二乘法估计模型参数,往往参数估计方差太大,使普通最小二乘法的效果变得很不理想。为解决这个问题,统计学家从模型和数据的角度考虑,采用回归诊断和自变量选择来克服多重共线性的影响。此外,人们还对普通最小二乘估计提出了种种改进方法。
7.1.1 普通最小二乘估计带来的问题
多元线性回归模型的矩阵形式为 \(\bm{y} = X \bm{\beta} + \bm{\varepsilon}\),参数 \(\bm{\beta}\) 的普通最小二乘估计为 \(\hat{\bm{\beta}} = (X'X)^{-1} X' \bm{y}\)。在第 \(6\) 章多重共线性部分有提到,当自变量 \(x_j\) 与其余变量间存在多重共线性时,\(\text{var} (\hat{\beta}_j) = c_{jj} \sigma^2 / L_{jj}\) 很大,\(\hat{\beta}_j\) 就很不稳定。
7.1.2 岭回归的定义
针对出现多重共线性时,普通最小二乘估计效果明显变差的问题,提出了一种改进最小二乘估计的方法,叫岭回归。
岭回归的想法很自然。当自变量间存在多重共线性时,\(|X'X| \approx 0\),我们设想给 \(X'X\) 加上一个正常数矩阵 \(k I(k > 0)\),那么 \(X'X + k I\) 接近奇异的程度就会比 \(X'X\) 接近奇异的程度小得多。考虑到量纲问题,先将数据标准化,为了计算方便,标准化后的设计矩阵仍然用 \(X\) 表示,定义为:
我们称式 \((7.1.1)\) 为 \(\bm{\beta}\) 的岭回归估计,其中,\(k\) 称为岭参数。由于假设 \(X\) 已经标准化,所以 \(X'X\) 就是自变量样本相关阵。式 \((7.1.1)\) 中 \(\bm{y}\) 可以标准化,也可以不标准化。如果 \(\bm{y}\) 也经过标准化,那么式 \((7.1.1)\) 计算的实际是标准化岭回归估计。\(\hat{\bm{\beta}}(k)\) 作为 \(\bm{\beta}\) 的估计应比最小二乘估计 \(\hat{\bm{\beta}}\) 稳定,当 \(k=0\) 时的岭回归估计 \(\hat{\bm{\beta}}(0)\) 就是普通最小二乘估计。
因为岭参数 \(k\) 不是唯一确定的,所以得到的岭回归估计 \(\hat{\bm{\beta}} (k)\) 实际是回归参数 \(\bm{\beta}\) 的一个估计族。