梯度提升决策树(Gradient Boosting Decision Tree)，用于分类或回归。

今天学习了梯度提升决策树（Gradient Boosting Decision Tree, GBDT），准备写点东西作为记录。后续，我会用python 实现GBDT，发布到我的Github上，敬请Star。

梯度提升算法是一种通用的学习算法，除了决策树，还可以使用其它模型作为基学习器。梯度提升算法的思想是通过调整模型，让损失函数的值不断减小，然后将各个模型加起来作为最终的预测模型。而梯度提升决策树则是以决策树为基学习器。通常，我们认为决策树是没有参数的模型，可以用if-else规则来表达。因此，在理解梯度提升决策树的一个关键点和难点便是梯度！梯度提升体现在哪?决策树不是没有参数吗，如何求梯度?这是我在学习过程中遇到的两个问题。下面会一一解答。

首先，我们来回顾一下机器学习的基础知识。

机器学习算法一个基础知识是损失函数（loss function），损失函数用于指导模型的训练。

其中的\(f\)就是我们的模型，梯度提升算法就是根据损失函数对模型的一阶导数（梯度）来对模型进行更新。什么，可以对模型求导数???，等等，别急，没有想像的那么难。

对于回归问题，通常采用least square error (最小二乘误差)作为损失函数。

\(L\left(f\right) = \sum\frac{1}{2}\left(y_i - f\left(x_i\right)\right)^2\)

对函数\(f\)求导数为:

\(-\frac{\delta L\left(f\right)}{\delta f} = \sum\left(y_i - f\left(x_i\right)\right)\)

于是，当函数\(f\)的值往梯度方向改变一定的值时，损失函数就会减小的最快，是不是很酷?

在 the elements of statistic learning 一书中，在361页的Algorithm 10.3中，步长可以算出来。不过，在实际的代码中，我们通常会设置一个学习率，这个学习率就是步长。假设我们设置的学习率为\(lr\)，那么：

\(f\left(x_{i+1}\right) = f\left(x_i\right) + lr * \left(y_i - f\left(x_i\right)\right)\)

一个比较骚的操作时，不用上面的方式来更新函数值。而是先用一颗决策树来拟合上面的梯度，然后用决策树的预测值来替代上面的梯度，进行函数值的更新。

\(f\left(x_{i+1}\right) = f\left(x_i\right) + lr * tree\left(x_i\right)\)

为什么不直接使用计算出来的梯度值呢? 为了防止过拟合，提高模型的范化能力。

算法的整体流程图如下（摘自《the elements of statistic learning》)：

需要注意的是，在代码实现的时候，并没有执行步骤(c)，取而代之的是设置的常量学习率。

好了，GBDT部分暂时就到这里了。如果有不懂的地方，欢迎留言提问。

结合前面提到的那本书看，另外还有我放到Github上面的代码看，学习效果会比较好。

posted @ 2018-11-15 21:25 redhand 阅读(5366) 评论(0) 收藏举报

刷新页面返回顶部

redhand

梯度提升决策树(Gradient Boosting Decision Tree)，用于分类或回归。

公告