线性回归总结

scikit-learn对于线性回归提供了比较多的类库，这些类库都可以用来做线性回归分析，本文就对这些类库的使用做一个总结，重点讲述这些线性回归算法库的不同和各自的使用场景。

　　　　线性回归的目的是要得到输出向量 $Y$

　　　　为了得到线性回归系数 $θ$

1. LinearRegression

　　　　损失函数：

　　　　LinearRegression类就是我们平时说的最常见普通的线性回归，它的损失函数也是最简单的，如下：

　　　　 $J (θ) = \frac{1}{2} (X θ - Y)^{T} (X θ - Y)$

　　　　损失函数的优化方法：

　　　　对于这个损失函数，一般有梯度下降法和最小二乘法两种极小化损失函数的优化方法，而scikit中的LinearRegression类用的是最小二乘法。通过最小二乘法，可以解出线性回归系数 $θ$

　　　　 $θ = (X^{T} X)^{- 1} X^{T} Y$

　　　　验证方法：

　　　　LinearRegression类并没有用到交叉验证之类的验证方法，需要我们自己把数据集分成训练集和测试集，然后训练优化。

　　　　使用场景：

　　　　一般来说，只要我们觉得数据有线性关系，LinearRegression类是我们的首先。如果发现拟合或者预测的不好，再考虑用其他的线性回归库。如果是学习线性回归，推荐先从这个类开始第一步的研究。

2. Ridge

　　　　损失函数：　

　　　　由于第一节的LinearRegression没有考虑过拟合的问题，有可能泛化能力较差，这时损失函数可以加入正则化项，如果加入的是L2范数的正则化项，这就是Ridge回归。损失函数如下：

　　　　 $J (θ) = \frac{1}{2} (X θ - Y)^{T} (X θ - Y) + \frac{1}{2} α | | θ | |_{2}^{2}$

　　　　其中 $α$

　　　　Ridge回归在不抛弃任何一个特征的情况下，缩小了回归系数，使得模型相对而言比较的稳定，不至于过拟合。

　　　　损失函数的优化方法：

　　　　对于这个损失函数，一般有梯度下降法和最小二乘法两种极小化损失函数的优化方法，而scikit中的Ridge类用的是最小二乘法。通过最小二乘法，可以解出线性回归系数 $θ$

　　　　 $θ = (X^{T} X + α E)^{- 1} X^{T} Y$

　　　　其中E为单位矩阵。

　　　　验证方法：

　　　　Ridge类并没有用到交叉验证之类的验证方法，需要我们自己把数据集分成训练集和测试集，需要自己设置好超参数 $α$

　　　　使用场景：

　　　　一般来说，只要我们觉得数据有线性关系，用LinearRegression类拟合的不是特别好，需要正则化，可以考虑用Ridge类。但是这个类最大的缺点是每次我们要自己指定一个超参数 $α$

3. RidgeCV

　　　　RidgeCV类的损失函数和损失函数的优化方法完全与Ridge类相同，区别在于验证方法。

　　　　验证方法：

　　　　RidgeCV类对超参数 $α$

　　　　使用场景：

　　　　一般来说，只要我们觉得数据有线性关系，用LinearRegression类拟合的不是特别好，需要正则化，可以考虑用RidgeCV类。不是为了学习的话就不用Ridge类。为什么这里只是考虑用RidgeCV类呢？因为线性回归正则化有很多的变种，Ridge只是其中的一种。所以可能需要比选。如果输入特征的维度很高，而且是稀疏线性关系的话，RidgeCV类就不合适了。这时应该主要考虑下面几节要讲到的Lasso回归类家族。

4. Lasso

　　　　损失函数：

　　　　线性回归的L1正则化通常称为Lasso回归，它和Ridge回归的区别是在损失函数上增加了的是L1正则化的项，而不是L2正则化项。L1正则化的项也有一个常数系数 $α$

　　　　 $J (θ) = \frac{1}{2 m} (X θ - Y)^{T} (X θ - Y) + α | | θ | |_{1}$

　　　　其中n为样本个数， $α$

　　　　Lasso回归可以使得一些特征的系数变小，甚至还是一些绝对值较小的系数直接变为0。增强模型的泛化能力。

　　　　损失函数的优化方法：

　　　　Lasso回归的损失函数优化方法常用的有两种，坐标轴下降法和最小角回归法。Lasso类采用的是坐标轴下降法，后面讲到的LassoLars类采用的是最小角回归法

　　　　验证方法：

　　　　Lasso类并没有用到交叉验证之类的验证方法，和Ridge类类似。需要我们自己把数据集分成训练集和测试集，需要自己设置好超参数 $α$

　　　　使用场景：

　　　　一般来说，对于高维的特征数据，尤其线性关系是稀疏的，我们会采用Lasso回归。或者是要在一堆特征里面找出主要的特征，那么Lasso回归更是首选了。但是Lasso类需要自己对 $α$

5. LassoCV　　　　

　　　　LassoCV类的损失函数和损失函数的优化方法完全与Lasso类相同，区别在于验证方法。

　　　　验证方法：

　　　　LassoCV类对超参数 $α$

　　　　使用场景：　　

　　　　LassoCV类是进行Lasso回归的首选。当我们面临在一堆高位特征中找出主要特征时，LassoCV类更是必选。当面对稀疏线性关系时，LassoCV也很好用。

6. LassoLars

　　　　LassoLars类的损失函数和验证方法与Lasso类相同，区别在于损失函数的优化方法。

　　　　损失函数的优化方法：

　　　　Lasso回归的损失函数优化方法常用的有两种，坐标轴下降法和最小角回归法。LassoLars类采用的是最小角回归法，前面讲到的Lasso类采用的是坐标轴下降法。　　　

　　　　使用场景：

　　　　LassoLars类需要自己对 $α$

7. LassoLarsCV

　　　　LassoLarsCV类的损失函数和损失函数的优化方法完全与LassoLars类相同，区别在于验证方法。

　　　　验证方法：

　　　　LassoLarsCV类对超参数 $α$

　　　　使用场景：　　

　　　　LassoLarsCV类是进行Lasso回归的第二选择。第一选择是前面讲到LassoCV类。那么LassoLarsCV类有没有适用的场景呢？换句话说，用最小角回归法什么时候比坐标轴下降法好呢？场景一：如果我们想探索超参数 $α$

8. LassoLarsIC

　　　　LassoLarsIC类的损失函数和损失函数的优化方法完全与LassoLarsCV类相同，区别在于验证方法。

　　　　验证方法：

　　　　LassoLarsIC类对超参数 $α$

　　　　使用场景：

　　　　从验证方法可以看出，验证 $α$

9. ElasticNet

　　　　损失函数：

　　　　ElasticNet可以看做Lasso和Ridge的中庸化的产物。它也是对普通的线性回归做了正则化，但是它的损失函数既不全是L1的正则化，也不全是L2的正则化，而是用一个权重参数 $ρ$

　　　　 $J (θ) = \frac{1}{2 m} (X θ - Y)^{T} (X θ - Y) + α ρ | | θ | |_{1} + \frac{α (1 - ρ)}{2} | | θ | |_{2}^{2}$

　　　　其中 $α$

　　　　损失函数的优化方法：

　　　　ElasticNet回归的损失函数优化方法常用的有两种，坐标轴下降法和最小角回归法。ElasticNet类采用的是坐标轴下降法。

　　　　验证方法：

　　　　ElasticNet类并没有用到交叉验证之类的验证方法，和Lasso类类似。需要我们自己把数据集分成训练集和测试集，需要自己设置好超参数 $α$

　　　　使用场景：

　　　　ElasticNet类需要自己对 $α$

10. ElasticNetCV

　　　　ElasticNetCV类的损失函数和损失函数的优化方法完全与ElasticNet类相同，区别在于验证方法。

　　　　验证方法：

　　　　ElasticNetCV类对超参数 $α$

　　　　使用场景：

　　　　ElasticNetCV类用在我们发现用Lasso回归太过（太多特征被稀疏为0），而用Ridge回归又正则化的不够（回归系数衰减的太慢）的时候。一般不推荐拿到数据就直接就上ElasticNetCV。

11. OrthogonalMatchingPursuit

　　　　损失函数：

　　　　OrthogonalMatchingPursuit（OMP）算法和普通的线性回归损失函数的区别是增加了一个限制项，来限制回归系数中非0元素的最大个数。形成了一个全新的损失函数如下：

　　　　 $J (θ) = \frac{1}{2} (X θ - Y)^{T} (X θ - Y)$

　　　　subject to $| | θ | |_{0} \leq n_{n o n - z e r o - c o e f s}$

　　　　损失函数的优化方法：　　　

　　　　OrthogonalMatchingPursuit类使用前向选择算法来优化损失函数。它是最小角回归算法的缩水版。虽然精度不如最小角回归算法，但是运算速度很快。

　　　　验证方法：

　　　　OrthogonalMatchingPursuit类并没有用到交叉验证之类的验证方法，和Lasso类类似。需要我们自己把数据集分成训练集和测试集，需要自己选择限制参数 $n_{n o n - z e r o - c o e f s}$

　　　　使用场景：

　　　　OrthogonalMatchingPursuit类需要自己选择 $n_{n o n - z e r o - c o e f s}$

12. OrthogonalMatchingPursuitCV

　　　　OrthogonalMatchingPursuitCV类的损失函数和损失函数的优化方法完全与OrthogonalMatchingPursuit类相同，区别在于验证方法。

　　　　验证方法：

　　　　OrthogonalMatchingPursuitCV类使用交叉验证，在S折交叉验证中以MSE最小为标准来选择最好的 $n_{n o n - z e r o - c o e f s}$

　　　　使用场景：

　　　　OrthogonalMatchingPursuitCV类通常用在稀疏回归系数的特征选择上，这点和LassoCV有类似的地方。不过由于它的损失函数优化方法是前向选择算法，精确度较低，一般情况不是特别推荐用，用LassoCV就够，除非你对稀疏回归系数的精确个数很在意，那可以考虑用OrthogonalMatchingPursuitCV。

13. MultiTaskLasso

　　　　从这节到第16节，类里面都带有一个“MultiTask”的前缀。不过他不是编程里面的多线程，而是指多个线性回归模型共享样本特征，但是有不同的回归系数和特征输出。具体的线性回归模型是 $Y = X W$

　　　　损失函数：

　　　　由于这里是多个线性回归一起拟合，所以损失函数和前面的都很不一样：

　　　　 $J (W) = \frac{1}{2 m} (| | X W - Y | |)_{F r o}^{2} + α | | W | |_{21}$

　　　　其中， $(| | X W - Y | |)_{F r o}$

　　　　损失函数的优化方法：　　　

　　　　MultiTaskLasso类使用坐标轴下降法来优化损失函数。

　　　　验证方法：

　　　　MultiTaskLasso类并没有用到交叉验证之类的验证方法，和Lasso类类似。需要我们自己把数据集分成训练集和测试集，需要自己设置好超参数 $α$

　　　　使用场景：

　　　　MultiTaskLasso类需要自己对 $α$

14. MultiTaskLassoCV

　　　　MultiTaskLassoCV类的损失函数和损失函数的优化方法完全与MultiTaskLasso类相同，区别在于验证方法。

　　　　验证方法：

　　　　MultiTaskLassoCV类对超参数 $α$

　　　　使用场景：

　　　　MultiTaskLassoCV是多个回归模型需要一起共享样本特征一起拟合时候的首选。它可以保证选到的特征每个模型都用到。不会出现某个模型选到了某特征而另一个模型没选到这个特征的情况。

15. MultiTaskElasticNet

　　　　损失函数：

　　　　MultiTaskElasticNet类和MultiTaskLasso类的模型是相同的。不过损失函数不同。损失函数表达式如下：

　　　　 $J (W) = \frac{1}{2 m} (| | X W - Y | |)_{F r o}^{2} + α ρ | | W | |_{21} + \frac{α (1 - ρ)}{2} (| | W | |)_{F r o}^{2}$

　　　　其中， $(| | X W - Y | |)_{F r o}$

　　　　损失函数的优化方法：　　　

　　　　MultiTaskElasticNet类使用坐标轴下降法来优化损失函数。

　　　　验证方法：

　　　　MultiTaskElasticNet类并没有用到交叉验证之类的验证方法，和Lasso类类似。需要我们自己把数据集分成训练集和测试集，需要自己设置好超参数 $α$

　　　　使用场景：

　　　　MultiTaskElasticNet类需要自己对 $α$

16. MultiTaskElasticNetCV

　　　　MultiTaskElasticNetCV类的损失函数和损失函数的优化方法完全与MultiTaskElasticNet类相同，区别在于验证方法。

　　　　验证方法：

　　　　MultiTaskElasticNetCV类对超参数 $α$

　　　　使用场景：

　　　　MultiTaskElasticNetCV是多个回归模型需要一起共享样本特征一起拟合时候的两个备选之一，首选是MultiTaskLassoCV。如果我们发现用MultiTaskLassoCV时回归系数衰减的太快，那么可以考虑用MultiTaskElasticNetCV。　　　

17. BayesianRidge

　　　　第17和18节讲的都是贝叶斯回归模型。贝叶斯回归模型假设先验概率，似然函数和后验概率都是正态分布。先验概率是假设模型输出Y是符合均值为 $X θ$

　　　　此处对损失函数即负的最大化边际似然函数不多讨论，不过其形式和Ridge回归的损失函数很像，所以也取名BayesianRidge。

　　　　使用场景：

　　　　如果我们的数据有很多缺失或者矛盾的病态数据，可以考虑BayesianRidge类，它对病态数据鲁棒性很高，也不用交叉验证选择超参数。但是极大化似然函数的推断过程比较耗时，一般情况不推荐使用。

18. ARDRegression

　　　　ARDRegression和BayesianRidge很像，唯一的区别在于对回归系数 $θ$

　　　　ARDRegression也是通过最大化边际似然函数来估计超参数 $α$

　　　　使用场景：

　　　　如果我们的数据有很多缺失或者矛盾的病态数据，可以考虑BayesianRidge类，如果发现拟合不好，可以换ARDRegression试一试。因为ARDRegression对回归系数先验分布的假设没有BayesianRidge严格，某些时候会比BayesianRidge产生更好的后验结果。

posted @ 2019-04-26 10:33 gao_jian 阅读(1424) 评论(0) 编辑收藏举报

gao_jian

线性回归总结

1. LinearRegression

2. Ridge

3. RidgeCV

4. Lasso

5. LassoCV

6. LassoLars

7. LassoLarsCV

8. LassoLarsIC

9. ElasticNet

10. ElasticNetCV

11. OrthogonalMatchingPursuit

12. OrthogonalMatchingPursuitCV

13. MultiTaskLasso

14. MultiTaskLassoCV

15. MultiTaskElasticNet

16. MultiTaskElasticNetCV

17. BayesianRidge

18. ARDRegression

公告

5. LassoCV