Lasso回归算法：坐标轴下降法与最小角回归法小结

前面的文章对线性回归做了一个小结，文章在这：线性回归原理小结。里面对线程回归的正则化也做了一个初步的介绍。提到了线程回归的L2正则化-Ridge回归，以及线程回归的L1正则化-Lasso回归。但是对于Lasso回归的解法没有提及，本文是对该文的补充和扩展。以下都用矩阵法表示，如果对于矩阵分析不熟悉，推荐学习张贤达的《矩阵分析与应用》。

1. 回顾线性回归　

　　　　首先我们简要回归下线性回归的一般形式：

　　　　 $h_{θ} (X) = X θ$

　　　　需要极小化的损失函数是：

　　　　 $J (θ) = \frac{1}{2} (X θ - Y)^{T} (X θ - Y)$

　　　　如果用梯度下降法求解，则每一轮 $θ$

　　　　 $θ = θ - α X^{T} (X θ - Y)$

　　　　其中 $α$

　　　　如果用最小二乘法，则 $θ$

　　　　 $θ = (X^{T} X)^{- 1} X^{T} Y$

2. 回顾Ridge回归

　　　　由于直接套用线性回归可能产生过拟合，我们需要加入正则化项，如果加入的是L2正则化项，就是Ridge回归，有时也翻译为脊回归。它和一般线性回归的区别是在损失函数上增加了一个L2正则化的项，和一个调节线性回归项和正则化项权重的系数 $α$

　　　　 $J (θ) = \frac{1}{2} (X θ - Y)^{T} (X θ - Y) + \frac{1}{2} α | | θ | |_{2}^{2}$

　　　　其中 $α$

　　　　Ridge回归的解法和一般线性回归大同小异。如果采用梯度下降法，则每一轮 $θ$

　　　　 $θ = θ - (β X^{T} (X θ - Y) + α θ)$

　　　　其中 $β$

　　　　如果用最小二乘法，则 $θ$

　　　　 $θ = (X^{T} X + α E)^{- 1} X^{T} Y$

　　　　其中E为单位矩阵。

　　　　Ridge回归在不抛弃任何一个变量的情况下，缩小了回归系数，使得模型相对而言比较的稳定，但这会使得模型的变量特别多，模型解释性差。有没有折中一点的办法呢？即又可以防止过拟合，同时克服Ridge回归

模型变量多的缺点呢？有，这就是下面说的Lasso回归。

3. 初识Lasso回归　

　　　　Lasso回归有时也叫做线性回归的L1正则化，和Ridge回归的主要区别就是在正则化项，Ridge回归用的是L2正则化，而Lasso回归用的是L1正则化。Lasso回归的损失函数表达式如下：　

　　　　 $J (θ) = \frac{1}{2 n} (X θ - Y)^{T} (X θ - Y) + α | | θ | |_{1}$

　　　　其中n为样本个数， $α$

　　　　Lasso回归使得一些系数变小，甚至还是一些绝对值较小的系数直接变为0，因此特别适用于参数数目缩减与参数的选择，因而用来估计稀疏参数的线性模型。

　　　　但是Lasso回归有一个很大的问题，导致我们需要把它单独拎出来讲，就是它的损失函数不是连续可导的，由于L1范数用的是绝对值之和，导致损失函数有不可导的点。也就是说，我们的最小二乘法，梯度下降法，牛顿法与拟牛顿法对它统统失效了。那我们怎么才能求有这个L1范数的损失函数极小值呢？

　　　　OK，本章主角，两种全新的求极值解法坐标轴下降法（coordinate descent）和最小角回归法（ Least Angle Regression， LARS）该隆重出场了。　　　　　　　　　　

4. 用坐标轴下降法求解Lasso回归

　　　　坐标轴下降法顾名思义，是沿着坐标轴的方向去下降，这和梯度下降不同。梯度下降是沿着梯度的负方向下降。不过梯度下降和坐标轴下降的共性就都是迭代法，通过启发式的方式一步步迭代求解函数的最小值。

　　　　坐标轴下降法的数学依据主要是这个结论（此处不做证明）：一个可微的凸函数 $J (θ)$

　　　　于是我们的优化目标就是在 $θ$

　　　　下面我们看看具体的算法过程：

　　　　1. 首先，我们把 $θ$

　　　　2. 对于第k轮的迭代。我们从 $θ_{1}^{(k)}$

　　　　 $θ_{i}^{(k)} \in \underset{θ_{i}}{\underset{⏟}{a r g m i n}} J (θ_{1}^{(k)}, θ_{2}^{(k)}, . . . θ_{i - 1}^{(k)}, θ_{i}, θ_{i + 1}^{(k - 1)}, . . ., θ_{n}^{(k - 1)})$

　　　　也就是说 $θ_{i}^{(k)}$

　　　　如果上面这个式子不好理解，我们具体一点，在第k轮， $θ$

　　　　 $θ_{1}^{(k)} \in \underset{θ_{1}}{\underset{⏟}{a r g m i n}} J (θ_{1}, θ_{2}^{(k - 1)}, . . ., θ_{n}^{(k - 1)})$

　　　　 $θ_{2}^{(k)} \in \underset{θ_{2}}{\underset{⏟}{a r g m i n}} J (θ_{1}^{(k)}, θ_{2}, θ_{3}^{(k - 1)} . . ., θ_{n}^{(k - 1)})$

　　　　...

　　　　 $θ_{n}^{(k)} \in \underset{θ_{n}}{\underset{⏟}{a r g m i n}} J (θ_{1}^{(k)}, θ_{2}^{(k)}, . . ., θ_{n - 1}^{(k)}, θ_{n})$

　　　　3. 检查 $θ^{(k)}$

　　　　以上就是坐标轴下降法的求极值过程，可以和梯度下降做一个比较：

　　　　a) 坐标轴下降法在每次迭代中在当前点处沿一个坐标方向进行一维搜索，固定其他的坐标方向，找到一个函数的局部极小值。而梯度下降总是沿着梯度的负方向求函数的局部最小值。

　　　　b) 坐标轴下降优化方法是一种非梯度优化算法。在整个过程中依次循环使用不同的坐标方向进行迭代，一个周期的一维搜索迭代过程相当于一个梯度下降的迭代。

　　　　c) 梯度下降是利用目标函数的导数来确定搜索方向的，该梯度方向可能不与任何坐标轴平行。而坐标轴下降法法是利用当前坐标方向进行搜索，不需要求目标函数的导数，只按照某一坐标方向进行搜索最小值。

　　　　d) 两者都是迭代方法，且每一轮迭代，都需要O(mn)的计算量(m为样本数，n为系数向量的维度)

5. 用最小角回归法求解Lasso回归

　　　　第四节介绍了坐标轴下降法求解Lasso回归的方法，此处再介绍另一种常用方法，最小角回归法(Least Angle Regression， LARS)。

　　　　在介绍最小角回归前，我们先看看两个预备算法，好吧，这个算法真没有那么好讲。

5.1 前向选择（Forward Selection）算法

　　　　第一个预备算法是前向选择（Forward Selection）算法。

　　　　前向选择算法的原理是是一种典型的贪心算法。要解决的问题是对于:

　　　　 $Y = X θ$

　　　　把矩阵 $X$

　　　　 $\bar{Y} = X_{k} θ_{k}$

　　　　其中：

θ_{k} = \frac{< X_{k}, Y >}{| | X_{k} | |_{2}}

　　　　即：

\bar{Y}

　　　　当

X

　　　　此算法对每个变量只需要执行一次操作，效率高，速度快。但也容易看出，当自变量不是正交的时候，由于每次都是在做投影，所有算法只能给出一个局部近似解。因此，这个简单的算法太粗糙，还不能直接用于我们的Lasso回归。

5.2 前向梯度（Forward Stagewise）算法

　　　　第二个预备算法是前向梯度（Forward Stagewise）算法。

　　　　前向梯度算法和前向选择算法有类似的地方，也是在 $Y$

　　　　当

X

　　　　当算法在

ε

　　　　有没有折中的办法可以综合前向梯度算法和前向选择算法的优点，做一个折中呢？有！这就是终于要出场的最小角回归法。

5.3 最小角回归(Least Angle Regression， LARS)算法

　　　　好吧，最小角回归(Least Angle Regression， LARS)算法终于出场了。最小角回归法对前向梯度算法和前向选择算法做了折中，保留了前向梯度算法一定程度的精确性，同时简化了前向梯度算法一步步迭代的过程。具体算法是这样的：　

　　　　首先，还是找到与因变量 $Y$

　　　　当 $θ$

　　　　最小角回归法是一个适用于高维数据的回归算法，其主要的优点有：

　　　　1）特别适合于特征维度n 远高于样本数m的情况。

　　　　2）算法的最坏计算复杂度和最小二乘法类似，但是其计算速度几乎和前向选择算法一样

　　　　3）可以产生分段线性结果的完整路径，这在模型的交叉验证中极为有用

　　　　主要的缺点是：

　　　　由于LARS的迭代方向是根据目标的残差而定，所以该算法对样本的噪声极为敏感。

6. 总结

　　　　Lasso回归是在ridge回归的基础上发展起来的，如果模型的特征非常多，需要压缩，那么Lasso回归是很好的选择。一般的情况下，普通的线性回归模型就够了。

　　　　另外，本文对最小角回归法怎么求具体的 $θ$

posted @ 2018-02-06 21:23 程序猿-小秦阅读(1575) 评论(0) 编辑收藏举报

刷新页面返回顶部

程序猿-小秦

巧者劳，智者忧，唯无能者无所求。

Lasso回归算法：坐标轴下降法与最小角回归法小结

1. 回顾线性回归

2. 回顾Ridge回归

3. 初识Lasso回归

4. 用坐标轴下降法求解Lasso回归

5. 用最小角回归法求解Lasso回归

5.1 前向选择（Forward Selection）算法

5.2 前向梯度（Forward Stagewise）算法

5.3 最小角回归(Least Angle Regression， LARS)算法

6. 总结

公告

程序猿-小秦

巧者劳，智者忧，唯无能者无所求。

Lasso回归算法： 坐标轴下降法与最小角回归法小结

1. 回顾线性回归

2. 回顾Ridge回归

3. 初识Lasso回归

4. 用坐标轴下降法求解Lasso回归

5. 用最小角回归法求解Lasso回归

5.1 前向选择（Forward Selection）算法

5.2 前向梯度（Forward Stagewise）算法

5.3 最小角回归(Least Angle Regression， LARS)算法

6. 总结

公告

Lasso回归算法：坐标轴下降法与最小角回归法小结

1. 回顾线性回归　

3. 初识Lasso回归