Boosted Trees 介绍

原文地址： http://xgboost.apachecn.org/cn/latest/model.html#xgboost

Boosted Trees 介绍

XGBoost 是 “Extreme Gradient Boosting” 的缩写，其中 “Gradient Boosting” 一词在论文 Greedy Function Approximation: A Gradient Boosting Machine 中，由 Friedman 提出。 XGBoost 基于这个原始模型。这是 gradient boosted trees（梯度增强树）的教程，大部分内容是基于 xgboost 的作者的这些 slides 。

GBM （boosted trees，增强树）已经有一段时间了，关于这个话题有很多的材料。这个教程试图用监督学习的元素以独立和有原则的方式解释 boosted trees （增强树）。我们认为这个解释更加清晰，更加正式，并激发了 xgboost 中使用的变体。

监督学习的要素

XGBoost 用于监督学习问题，我们使用训练数据 $x_{i}$

模型和参数

监督学习中的 model（模型） 通常是指给定输入 $x_{i}$

parameters（参数） 是我们需要从数据中学习的未确定部分。在线性回归问题中，参数是系数 $w$

目标函数：训练损失 + 正则

基于对 $y_{i}$

关于目标函数的一个非常重要的事实是，它们 must always（必须总是） 包含两个部分：training loss （训练损失）和 regularization（正则化）。

O b j (Θ) = L (Θ) + Ω (Θ)

其中 $L$

L (Θ) = \sum i (y i - y^i) 2

另一个常用的损失函数是 logistic 回归的 logistic 损失。

L (θ) = \sum i [y i ln (1 + e - y^i) + (1 - y i) ln (1 + e

regularization term（正则化项） 是人们通常忘记添加的内容。正则化项控制模型的复杂性，这有助于避免过拟合。这听起来有些抽象，那么我们在下面的图片中考虑下面的问题。在图像左上角给出输入数据点的情况下，要求您在视觉上 fit（拟合） 一个 step function（阶梯函数）。您认为三种中的哪一种解决方案是最拟合效果最好的？

Step function

答案已经标注为红色了。请思考一下这个是否在你的视觉上较为合理？总的原则是我们想要一个 simple（简单） 和 predictive（可预测） 的模型。两者之间的权衡也被称为机器学习中的 bias-variance tradeoff（偏差-方差权衡）。

对于线性模型常见的正则化项有 $L_{2}$

为什么要介绍 general principle（一般原则）

上面介绍的要素构成了监督学习的基本要素，它们自然是机器学习工具包的基石。例如，你应该能够描述 boosted trees 和 random forests 之间的差异和共同点。以正式的方式理解这个过程也有助于我们理解我们正在学习的目标以及启发式算法背后的原因，例如 pruning 和 smoothing 。

tree ensembles（树集成）

既然我们已经介绍了监督学习的内容，那么接下来让我们开始介绍真正的 trees 吧。首先，让我们先来了解一下 xgboost 的 model（模型） ： tree ensembles（树集成）。树集成模型是一组 classification and regression trees （CART）。下面是一个 CART 的简单的示例，它可以分类是否有人喜欢电脑游戏。

CART

我们把一个家庭的成员分成不同的叶子，并把他们分配到相应的叶子节点上。 CART 与 decision trees（决策树）有些许的不同，就是叶子只包含决策值。在 CART 中，每个叶子都有一个 real score （真实的分数），这给了我们更丰富的解释，超越了分类。这也使得统一的优化步骤更容易，我们将在本教程的后面部分看到。

通常情况下，单棵树由于过于简单而不够强大到可以支持在实践中使用的。实际使用的是所谓的 tree ensemble model（树集成模型），它将多棵树的预测加到一起。

TwoCART

上图是两棵树的集成的例子。将每棵树的预测分数加起来得到最终分数。如果你看一下这个例子，一个重要的事实就是两棵树互相 complement（补充） 。在数学表示上，我们可以在表单中编写我们的模型。

y^i = \sum k = 1 K f k (x i), f k \in F

其中 $K$

o b j (Θ) = \sum i n l (y i, y^i) + \sum k = 1 K Ω (f k)

那么问题来了，random forests（随机森林）的 model（模型） 是什么？这正是 tree ensembles（树集成）！所以 random forests 和 boosted trees 在模型上并没有什么不同，不同之处在于我们如何训练它们。这意味着如果你写一个 tree ensembles（树集成）的预测服务，你只需要编写它们中的一个，它们应该直接为 random forests（随机森林）和 boosted trees（增强树）工作。这也是监督学习基石元素的一个例子。

Tree Boosting

在介绍完模型之后，我们从真正的训练部分开始。我们应该怎么学习 trees 呢？答案是，对于所有的监督学习模型都一样的处理：定义一个合理的目标函数，然后去尝试优化它！

假设我们有以下目标函数（记住它总是需要包含训练损失和正则化）

O b j = \sum i = 1 n l (y i, y^(t) i) + \sum i = 1 t Ω (f

附加训练

我们想要问的第一件事就是树的 parameters（参数） 是什么。你可能已经发现了，我们要学习的是那些函数 $f_{i}$

y^(0) i y^(1) i y^(2) i

另外还有一个问题，每一步我们想要哪棵 tree 呢？一个自然而然的事情就是添加一个优化我们目标的方法。

O b j (t) = \sum i = 1 n l (y i, y^(t) i) +

如果我们考虑使用 MSE 作为我们的损失函数，它将是下面的形式。

O b j (t) = \sum i = 1 n (y i - (y^(t - 1) i +

MSE 的形式比较友好，具有一阶项（通常称为残差）和二次项。对于其他形式的损失（例如，logistic loss），获得这么好的形式并不是那么容易。所以在一般情况下，我们把损失函数的泰勒展开到二阶

O b j (t) = \sum i = 1 n [l (y i, y^(t - 1) i) + g i f t

其中 $g_{i}$

g i h i = \partial y^(t - 1) i l (y i, y^

我们删除了所有的常量之后， $t$

\sum i = 1 n [g i f t (x i) + 1 2 h i f 2 t ( x i ) ] + Ω ( f t )

这成为了新树的优化目标。这个定义的一个重要优点是它只依赖于 $g_{i}$

模型复杂度

我们已经介绍了训练步骤，但是等等，还有一个重要的事情，那就是 regularization（正则化） ！我们需要定义树的复杂度 $Ω (f)$

f t (x) = w q (x), w \in R T, q : R d \to {1, 2, \dots, T} .

这里 $w$

Ω (f) = γ T + 1 2 λ \sum j = 1 T w 2 j

当然有不止一种方法来定义复杂度，但是这个具体的方法在实践中运行良好。正则化是大多数树的包不那么谨慎或简单忽略的一部分。这是因为对传统的树学习算法的对待只强调提高 impurity（不纯性），而复杂度控制则是启发式的。通过正式定义，我们可以更好地了解我们正在学习什么，是的，它在实践中运行良好。

The Structure Score（结构分数）

这是 derivation（派生）的神奇部分。在对树模型进行重新格式化之后，我们可以用第 $t$

O b j (t) \approx \sum i = 1 n [g i w q (x i) + 1 2 h

其中 $I_{j} = {i | q (x_{i}) = j}$

O b j (t) = \sum j = 1 T [G j w j + 1 2 ( H j + λ ) w 2 j ] + γ T

在这个等式中 $w_{j}$

w * j = - G j H j + λ O b j * = - 1 2 \sum j = 1 T G 2 j

最后一个方程度量一个树结构 $q (x)$

Structure Score

如果这一切听起来有些复杂，我们来看一下图片，看看分数是如何计算的。基本上，对于一个给定的树结构，我们把统计 $g_{i}$

学习树结构

既然我们有了一个方法来衡量一棵树有多好，理想情况下我们会列举所有可能的树并挑选出最好的树。在实践中，这种方法是比较棘手的，所以我们会尽量一次优化树的一个层次。具体来说，我们试图将一片叶子分成两片，并得到分数

G a i n = 1 2 [ G 2 L H L + λ + G 2 R H R + λ - ( G L +

这个公式可以分解为 1) 新左叶上的得分 2) 新右叶上的得分 3) 原始叶子上的得分 4) additional leaf（附加叶子）上的正则化。我们可以在这里看到一个重要的事实：如果增益小于 $γ$

对于真实有价值的数据，我们通常要寻找一个最佳的分割。为了有效地做到这一点，我们把所有的实例按照排序顺序排列，如下图所示。 Best split

然后从左到右的扫描就足以计算所有可能的拆分解决方案的结构得分，我们可以有效地找到最佳的拆分。

XGBoost 最后的话

既然你明白了什么是 boosted trees 了，你可能会问这在 XGBoost 中的介绍在哪里？ XGBoost 恰好是本教程中引入的正式原则的动力！更重要的是，在 systems optimization（系统优化） 和 principles in machine learning（机器学习原理） 方面都有深入的研究。这个库的目标是推动机器计算极限的极端，以提供一个scalable（可扩展）, portable（可移植） 和 accurate（精确的） 库。确保你试一试，最重要的是，向社区贡献你的智慧（代码，例子，教程）！

posted @ 2017-12-31 15:34 ordi 阅读(2977) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

Boosted Trees 介绍

Boosted Trees 介绍

监督学习的要素

模型和参数

目标函数：训练损失 + 正则

为什么要介绍 general principle（一般原则）

tree ensembles（树集成）

Tree Boosting

附加训练

模型复杂度

The Structure Score（结构分数）

学习树结构

XGBoost 最后的话

公告