最小一乘回归
背景
我们都非常熟悉传统的最小二乘回归,但是最小二乘回归容易受到个别极端值的影响,设想一下不带变量的情形下的最小二乘回归,即
\[\operatorname{argmin}_{\beta}\sum_{i=1}^n(y_i-\beta)^2
\]
容易知道这时的最小二乘估计\(\hat{\beta}=\bar{y}\)
假设我们的数据为\(1,2,3,4,5\)代表着班上某5个同学的零花钱,则我们的估计值是\(3\),但如果这时候第5个同学的数据没收集到,收集到的是另外一个土豪同学的数据,他的零花钱是100,则我们的数据为\(1,2,3,4,100\),此时估计值就成了\(22\),也就是说这时候我们对班上其他同学的零花钱估计为\(22\),但事实上可能这个班除了这个土豪同学有高达100的零花钱外,其他同学零花钱都很少,此时我们这个估计就显得不靠谱了。这种现象在统计学中叫做不稳健(not robust)。设想还是上述例子,但如果我们采用中位数做估计,那么其实两次的估计都是\(3\),这时候是不是好很多了,一定程度上抵御了某些个别的极端值对估计的影响。
正是基于这样的思想,人们提出了最小一乘回归,即
\[\operatorname{argmin}_{\beta_0,\cdots,\beta_p}\sum_{i=1}^{n}|y_{i}-\beta_0-\sum_{i=1}^{p}\beta_{i} x_{i}|
\]
如果考虑不带变量的情形下的最小一乘回归,即
\[\operatorname{argmin}_{\beta}\sum_{i=1}^n|y_i-\beta|
\]
则容易知道这时的最小二乘估计\(\hat{\beta}=\operatorname{med}_i{\{y_i\}}\),即数据的中位数
最小一乘回归的求解
-
对变量个数多时,转化为线性规划问题,容易验证原始最小一乘回归优化问题,等价于如下的线性规划
\[\begin{align*}&\operatorname{argmin}_{\beta_0,\cdots,\beta_p}\sum_{i=1}^{n}d_i^++d_i^-\\&\text{s.t}\ y_{i}-\beta_0-\sum_{i=1}^{p}\beta_{i} x_{i}-(d_i^+-d_i^-)=0\ i=1,\cdots,n\end{align*} \]
参考文献
- 陈希孺. 最小一乘线性回归(上)[J]. 数理统计与管理, 1989(05):48-55.
- 陈希孺. 最小一乘线性回归(下)[J]. 数理统计与管理, 1989(05):48-55.
- 李仲来. 最小一乘法介绍[J]. 数学通报, 1992(02).