最小一乘回归 - mathmath

背景

我们都非常熟悉传统的最小二乘回归，但是最小二乘回归容易受到个别极端值的影响，设想一下不带变量的情形下的最小二乘回归，即

\[\operatorname{argmin}_{\beta}\sum_{i=1}^n(y_i-\beta)^2 \]

容易知道这时的最小二乘估计\(\hat{\beta}=\bar{y}\)

假设我们的数据为\(1,2,3,4,5\)代表着班上某5个同学的零花钱，则我们的估计值是\(3\),但如果这时候第5个同学的数据没收集到，收集到的是另外一个土豪同学的数据，他的零花钱是100，则我们的数据为\(1,2,3,4,100\)，此时估计值就成了\(22\),也就是说这时候我们对班上其他同学的零花钱估计为\(22\)，但事实上可能这个班除了这个土豪同学有高达100的零花钱外，其他同学零花钱都很少，此时我们这个估计就显得不靠谱了。这种现象在统计学中叫做不稳健(not robust)。设想还是上述例子，但如果我们采用中位数做估计，那么其实两次的估计都是\(3\)，这时候是不是好很多了，一定程度上抵御了某些个别的极端值对估计的影响。

正是基于这样的思想，人们提出了最小一乘回归，即

\[\operatorname{argmin}_{\beta_0,\cdots,\beta_p}\sum_{i=1}^{n}|y_{i}-\beta_0-\sum_{i=1}^{p}\beta_{i} x_{i}| \]

如果考虑不带变量的情形下的最小一乘回归，即

\[\operatorname{argmin}_{\beta}\sum_{i=1}^n|y_i-\beta| \]

则容易知道这时的最小二乘估计\(\hat{\beta}=\operatorname{med}_i{\{y_i\}}\),即数据的中位数

最小一乘回归的求解

对变量个数多时，转化为线性规划问题，容易验证原始最小一乘回归优化问题，等价于如下的线性规划

\[\begin{align*}&\operatorname{argmin}_{\beta_0,\cdots,\beta_p}\sum_{i=1}^{n}d_i^++d_i^-\\&\text{s.t}\ y_{i}-\beta_0-\sum_{i=1}^{p}\beta_{i} x_{i}-(d_i^+-d_i^-)=0\ i=1,\cdots,n\end{align*} \]
对变量个数少时，可以采用另外一种办法，可以参看文献1,2,3

参考文献

陈希孺. 最小一乘线性回归(上)[J]. 数理统计与管理, 1989(05):48-55.
陈希孺. 最小一乘线性回归(下)[J]. 数理统计与管理, 1989(05):48-55.
李仲来. 最小一乘法介绍[J]. 数学通报, 1992(02).

posted on 2020-04-12 22:48 mathmath 阅读(1421) 评论(0) 收藏举报

刷新页面返回顶部