深度解析xgboost

Xgboost是GBDT算法的高效实现，在工业界的传统算法中，Xgboost几乎占据了半壁江山。这里，我们将深度探讨xgboost原理以及其高效实现。
原理部分参考集成学习

目标函数

事实上，如果不考虑工程实现、解决问题上的一些差异，xgboost与gbdt比较大的不同就是目标函数的定义。xgboost的目标函数如下所示：

\[\begin{aligned}\text{obj}^{(t)} & = \sum_{i=1}^n l(y_i, \hat{y}_i^{(t)}) + \sum_{i=1}^t\Omega(f_i) \\ & = \sum_{i=1}^n l(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) + \Omega(f_t) + \mathrm{constant}\end{aligned} \]

通过二阶泰勒展开，可得：

\[\text{obj}^{(t)} = \sum_{i=1}^n [l(y_i, \hat{y}_i^{(t-1)}) + g_i f_t(x_i) + \frac{1}{2} h_i f_t^2(x_i)] + \Omega(f_t) + \mathrm{constant} \]

其中：

\[\begin{aligned}g_i &= \partial_{\hat{y}_i^{(t-1)}} l(y_i, \hat{y}_i^{(t-1)})\\ h_i &= \partial_{\hat{y}_i^{(t-1)}}^2 l(y_i, \hat{y}_i^{(t-1)})\end{aligned} \]

泰勒展开：$f(x+\Delta x)\approx f(x)+f'(x)\Delta x+\frac{1}{2}f''(x) {\Delta x}^2 $；在展开时 $ x $ 对应目标函数里的 $ \hat{y}_i^{(t-1)} $, $ \Delta x $对应 $ f_t(x_i) $

最终的目标函数只依赖于每个数据点在误差函数上的一阶导数和二阶导数。

另外，对CART树正则项作一番定义：

\[f_t(x) = w_{q(x)}, w \in R^T, q:R^d\rightarrow \{1,2,\cdots,T\} . \]

需要解释下这个定义，首先，一棵树有$T$个叶子节点，这$T$个叶子节点的值组成了一个$T$维向量$w$，$q(x)$是一个映射，用来将样本映射成1到$T$的某个值，也就是把它分到某个叶子节点，$q(x)$其实就代表了CART树的结构。$w_q(x)$自然就是这棵树对样本$x$的预测值了。
xgboost使用了如下的正则化项：

\[\Omega(f) = \gamma T + \frac{1}{2}\lambda \sum_{j=1}^T w_j^2 \]

Note：其中， $T$表示叶子节点的个数，$w$表示叶子节点的分数 。也就是说，正则项包括叶子结点的数量和叶子结点权重向量的L2范数.
直观上看，目标要求预测误差尽量小，且叶子节点$T$尽量少（$γ$控制叶子结点的个数），节点数值$w$尽量不极端（$λ$控制叶子节点的分数不会过大），防止过拟合。
至此，我们关于第t棵树的优化目标已然很清晰，下面我们对它做如下变形

\[\begin{aligned}\text{obj}^{(t)} &\approx \sum_{i=1}^n [g_i w_{q(x_i)} + \frac{1}{2} h_i w_{q(x_i)}^2] + \gamma T + \frac{1}{2}\lambda \sum_{j=1}^T w_j^2\\ &= \sum^T_{j=1} [(\sum_{i\in I_j} g_i) w_j + \frac{1}{2} (\sum_{i\in I_j} h_i + \lambda) w_j^2 ] + \gamma T\end{aligned} \]

其中$I_j$代表一个集合，集合中每个值代表一个训练样本的序号，整个集合就是被第$t$棵CART树分到了第$j$个叶子节点上的训练样本。
进一步，我们可以做如下简化：

\[\text{obj}^{(t)} = \sum^T_{j=1} [G_jw_j + \frac{1}{2} (H_j+\lambda) w_j^2] +\gamma T \]

其中，$G_j$代表叶子结点 $j$ 所包含样本的一阶偏导数累加之和，是一个常量；$Hj$代表叶子结点 $j$ 所包含样本的二阶偏导数累加之和，是一个常量。

通过对$w$求导等于0，可以得到：

\[\begin{aligned}w_j^\ast &= -\frac{G_j}{H_j+\lambda}\\ \text{obj}^\ast &= -\frac{1}{2} \sum_{j=1}^T \frac{G_j^2}{H_j+\lambda} + \gamma T\end{aligned} \]

实质是把样本分配到叶子结点会对应一个obj，优化过程就是obj优化。也就是分裂节点到叶子不同的组合，不同的组合对应不同obj，所有的优化围绕这个思想展开。

$Obj$代表了当我们指定一个树的结构的时候，我们在目标上面最多减少多少。我们可以把它叫做 结构分数(structure score) 。

结构分数

分裂节点

对于一个叶子节点如何进行分裂，xgboost作者在其原始论文中给出了两种分裂节点的方法。

枚举所有不同树结构的贪心法

贪心法，即从树深度0开始，每一节点都遍历所有的特征，比如年龄、性别等等，然后对于某个特征，先按照该特征里的值进行排序，然后线性扫描该特征进而确定最好的分割点，最后对所有特征进行分割后，我们选择所谓的增益Gain最高的那个特征，而Gain如何计算呢？
在上面我们得到

\[\begin{aligned} \text{obj}^\ast &= -\frac{1}{2} \sum_{j=1}^T \frac{G_j^2}{H_j+\lambda} + \gamma T\end{aligned} \]

其中，目标函数中的$\frac{G_j^2}{H_j+\lambda}$部分，表示着每一个叶子节点对当前模型损失的贡献程度，融合一下，得到Gain的计算表达式，如下所示：

Gain的计算表达式

另外，要注意“对于某个特征，先按照该特征里的值进行排序”。比如设置一个值a，然后枚举所有$x < a$、$a < x$这样的条件（$x$代表某个特征比如年龄age，把age从小到大排序：假定从左至右依次增大，则比$a$小的放在左边，比$a$大的放在右边），对于某个特定的分割$a$，我们要计算$a$左边和右边的导数和。
第二个值得注意的事情就是引入分割不一定会使得情况变好，所以我们有一个引入新叶子的惩罚项。优化这个目标对应了树的剪枝，当引入的分割带来的增益小于一个阀值$γ$的时候，则忽略这个分割。
下面是论文中的算法

算法1

但当数据量过大导致内存无法一次载入或者在分布式情况下，贪心算法的效率就会变得很低，全局扫描法不再适用。
基于此，XGBoost提出了一系列加快寻找最佳分裂点的方案：

特征预排序+缓存：XGBoost在训练之前，预先对每个特征按照特征值大小进行排序，然后保存为block结构，后面的迭代中会重复地使用这个结构，使计算量大大减小。
分位点近似法：对每个特征按照特征值排序后，采用类似分位点选取的方式，仅仅选出常数个特征值作为该特征的候选分割点，在寻找该特征的最佳分割点时，从候选分割点中选出最优的一个。即近似算法。
并行查找：由于各个特性已预先存储为block结构，XGBoost支持利用多个线程并行地计算每个特征的最佳分割点，这不仅大大提升了结点的分裂速度，也极利于大规模训练集的适应性扩展。

近似算法

主要针对数据太大，不能直接进行计算。在寻找splitpoint的时候，不会枚举所有的特征值，而会对特征值进行聚合统计，按照特征值的密度分布，构造直方图计算特征值分布的面积，然后划分分布形成若干个bucket(桶)，每个bucket的面积相同，将bucket边界上的特征值作为split point的候选，遍历所有的候选分裂点来找到最佳分裂点。

算法2

近似算法首先按照特征取值的统计分布的一些百分位点确定一些候选分裂点，然后算法将连续的值映射到 buckets中，然后汇总统计数据，并根据聚合统计数据在候选节点中找到最佳节点。近似算法有两个变体， global variant和 local variant。

把样本从根分配到叶子结点，就是个排列组合。不同的组合对应的cost不同。求最好的组合你就要try，一味穷举是不可能的，所以才出来贪婪法。不看从头到尾就看当下节点怎么分配最好。这才有了那个exact greddy方法，后来还想加速才有了histogram的做法。

总而言之，XGBoost使用了和CART回归树一样的想法，利用贪婪算法，遍历所有特征的所有特征划分点，不同的是使用的目标函数不一样。具体做法就是分裂后的目标函数值比单子叶子节点的目标函数的增益，同时为了限制树生长过深，还加了个阈值，只有当增益大于该阈值才进行分裂。

停止生长

一棵树不会一直生长下去，下面是一些常见的限制条件。
(1) 当新引入的一次分裂所带来的增益Gain<0时，放弃当前的分裂。这是训练损失和模型结构复杂度的博弈过程。
(2) 当树达到最大深度时，停止建树，因为树的深度太深容易出现过拟合，这里需要设置一个超参数max_depth。
(3) 当引入一次分裂后，重新计算新生成的左、右两个叶子结点的样本权重和。如果任一个叶子结点的样本权重低于某一个阈值，也会放弃此次分裂。这涉及到一个超参数:最小样本权重和，是指如果一个叶子节点包含的样本数量太少也会放弃分裂，防止树分的太细，这也是过拟合的一种措施。

特征重要性排名

使用梯度提升算法的好处是在提升树被创建后，可以相对直接地得到每个属性的重要性得分。一般来说，重要性分数，衡量了特征在模型中的提升决策树构建中价值。一个属性越多的被用来在模型中构建决策树，它的重要性就相对越高。
属性重要性是通过对数据集中的每个属性进行计算，并进行排序得到。在单个决策书中通过每个属性分裂点改进性能度量的量来计算属性重要性，由节点负责加权和记录次数。也就说一个属性对分裂点改进性能度量越大（越靠近根节点），权值越大；被越多提升树所选择，属性越重要。性能度量可以是选择分裂节点的Gini纯度，也可以是其他度量函数。
最终将一个属性在所有提升树中的结果进行加权求和后然后平均，得到重要性得分。
对于所选择的度量，官方有五种方案：

‘weight’: the number of times a feature is used to split the data across all trees.
‘gain’: the average gain across all splits the feature is used in.
‘cover’: the average coverage across all splits the feature is used in.
‘total_gain’: the total gain across all splits the feature is used in.
‘total_cover’: the total coverage across all splits the feature is used in.

下面用一个例子来说明。假设有10个样例的样本，每个样例有两维特征$f_0$与$f_1$，标签为0或1，做二分类问题。训练时只用一棵树，得到xgboost结果如下：

xgboost结果
结合这张图，解释下各指标含义:

weight: $\{‘f_0’: 1, ‘f_1’: 2 \}$。在所有树中，某特征被用来分裂节点的次数，在本例中，可见分裂第1个节点时用到$f_0$，分裂第2，3个节点时用到$f_1$，所以weight_$f_0$ = 1, weight_$f_1$ = 2。
total_cover: $\{‘f_0’: 10.0, ‘f_1’: 8.0\}$。第1个节点，$f_0$被用来对所有10个样例进行分裂，之后的节点中$f_0$没再被用到，所以$f_0$的total_cover为10.0，此时$f_0$ >= 0.855563045的样例有5个，落入右子树；第2个节点，$f_1$被用来对上面落入右子树的5个样例进行分裂，其中$f_1$ >= -0.178257734的样例有3个，落入右子树；第3个节点，$f_1$被用来对上面落入右子树的3个样例进行分裂。总结起来，$f_0$在第1个节点分裂了10个样例，所以total_cover_$f_0$ = 10，$f_1$在第2、3个节点分别用于分裂5、3个样例，所以total_cover_$f_1$ = 5 + 3 = 8。total_cover表示在所有树中，某特征在每次分裂节点时处理(覆盖)的所有样例的数量。
cover: $\{‘f_0’: 10.0, ‘f_1’: 4.0\}$。cover = total_cover / weight，在本例中，cover_$f_0$ = 10 / 1，cover_$f_1$ = 8 / 2 = 4.
total_gain: $\{‘f_0’: 0.265151441, ‘f_1’: 0.75000003\}$在所有树中，某特征在每次分裂节点时带来的总增益，如果用熵或基尼不纯衡量分裂前后的信息量分别为i0和i1，则增益为(i0 - i1)。
gain: $\{‘f_0’: 0.265151441, ‘f_1’: 0.375000015\}$
gain = total_gain / weight，在本例中，gain_$f_0$ = 0.265151441 / 1，gain_$f_1$ = 75000003 / 2 = 375000015.

在平时的使用中，多用total_gain来对特征重要性进行排序。

工程实现

单机实现

对XGBoost的源码进行走读分析之后，能够看到下面的主流程：

cli_main.cc:
main()
     -> CLIRunTask()
          -> CLITrain()
               -> DMatrix::Load()
               -> learner = Learner::Create()
               -> learner->Configure()
               -> learner->InitModel()
               -> for (i = 0; i < param.num_round; ++i)
                    -> learner->UpdateOneIter()
                    -> learner->Save()
learner.cc:
Create()
      -> new LearnerImpl()
Configure()
InitModel()
     -> LazyInitModel()
          -> obj_ = ObjFunction::Create()
               -> objective.cc
                    Create()
                         -> SoftmaxMultiClassObj(multiclass_obj.cc)/
                              LambdaRankObj(rank_obj.cc)/
                              RegLossObj(regression_obj.cc)/
                              PoissonRegression(regression_obj.cc)
          -> gbm_ = GradientBooster::Create()
               -> gbm.cc
                    Create()
                         -> GBTree(gbtree.cc)/
                              GBLinear(gblinear.cc)
          -> obj_->Configure()
          -> gbm_->Configure()
UpdateOneIter()
      -> PredictRaw()
      -> obj_->GetGradient()
      -> gbm_->DoBoost()

gbtree.cc:
Configure()
      -> for (up in updaters)
           -> up->Init()
DoBoost()
      -> BoostNewTrees()
           -> new_tree = new RegTree()
           -> for (up in updaters)
                -> up->Update(new_tree)

tree_updater.cc:
Create()
     -> ColMaker/DistColMaker(updater_colmaker.cc)/
        SketchMaker(updater_skmaker.cc)/
        TreeRefresher(updater_refresh.cc)/
        TreePruner(updater_prune.cc)/
        HistMaker/CQHistMaker/
                  GlobalProposalHistMaker/
                  QuantileHistMaker(updater_histmaker.cc)/
        TreeSyncher(updater_sync.cc)

从上面的代码主流程可以看到，在XGBoost的实现中，对算法进行了模块化的拆解，几个重要的部分分别是：
I. ObjFunction：对应于不同的Loss Function，可以完成一阶和二阶导数的计算。
II. GradientBooster：用于管理Boost方法生成的Model，注意，这里的Booster Model既可以对应于线性Booster Model，也可以对应于Tree Booster Model。
III. Updater：用于建树，根据具体的建树策略不同，也会有多种Updater。比如，在XGBoost里为了性能优化，既提供了单机多线程并行加速，也支持多机分布式加速。也就提供了若干种不同的并行建树的updater实现，按并行策略的不同，包括： I). inter-feature exact parallelism （特征级精确并行） II). inter-feature approximate parallelism（特征级近似并行，基于特征分bin计算，减少了枚举所有特征分裂点的开销） III). intra-feature parallelism （特征内并行） IV). inter-node parallelism （多机并行）此外，为了避免overfit，还提供了一个用于对树进行剪枝的updater(TreePruner)，以及一个用于在分布式场景下完成结点模型参数信息通信的updater(TreeSyncher)，这样设计，关于建树的主要操作都可以通过Updater链的方式串接起来，比较一致干净，算是Decorator设计模式[4]的一种应用。
XGBoost的实现中，最重要的就是建树环节，而建树对应的代码中，最主要的也是Updater的实现。所以我们会以Updater的实现作为介绍的入手点。
以ColMaker（单机版的inter-feature parallelism，实现了精确建树的策略）为例，其建树操作大致如下：

updater_colmaker.cc:
ColMaker::Update()
     -> Builder builder;
     -> builder.Update()
          -> InitData()
          -> InitNewNode() // 为可用于split的树结点（即叶子结点，初始情况下只有一个
                           // 叶结点，也就是根结点) 计算统计量，包括gain/weight等
          ->  for (depth = 0; depth < 树的最大深度; ++depth)
               -> FindSplit()
                    -> for (each feature) // 通过OpenMP获取
                                          // inter-feature parallelism
                         -> UpdateSolution()
                              -> EnumerateSplit()  // 每个执行线程处理一个特征，
                                                   // 选出每个特征的
                                                   // 最优split point
                              -> ParallelFindSplit()
                                   // 多个执行线程同时处理一个特征，选出该特征
                                   //的最优split point;
                                   // 在每个线程里汇总各个线程内分配到的数据样
                                   //本的统计量(grad/hess);
                                   // aggregate所有线程的样本统计(grad/hess)，
                                   //计算出每个线程分配到的样本集合的边界特征值作为
                                   //split point的最优分割点;
                                   // 在每个线程分配到的样本集合对应的特征值集合进
                                   //行枚举作为split point，选出最优分割点
                         -> SyncBestSolution()
                               // 上面的UpdateSolution()/ParallelFindSplit()
                               //会为所有待扩展分割的叶结点找到特征维度的最优split
                               //point，比如对于叶结点A，OpenMP线程1会找到特征$f_1$
                               //的最优split point，OpenMP线程2会找到特征F2的最
                               //优split point，所以需要进行全局sync，找到叶结点A
                               //的最优split point。
                         -> 为需要进行分割的叶结点创建孩子结点
               -> ResetPosition()
                      //根据上一步的分割动作，更新样本到树结点的映射关系
                      // Missing Value(i.e. default)和非Missing Value(i.e.
                      //non-default)分别处理
               -> UpdateQueueExpand()
                      // 将待扩展分割的叶子结点用于替换qexpand_，作为下一轮split的
                      //起始基础
               -> InitNewNode()  // 为可用于split的树结点计算统计量

整个操作流程还是比较直观，上面直接在代码块级别的介绍可能过于detail，稍微抽象一些的流程图描述如下：

单机版本的实现中，另一个比较重要的细节是对于稀疏离散特征的支持，在这方面，XGBoost的实现还是做了比较细致的工程优化考量。在XGBoost里，对于稀疏性的离散特征，在寻找split point的时候，不会对该特征为missing的样本进行遍历统计，只对该列特征值为non-missing的样本上对应的特征值进行遍历，通过这个工程trick来减少了为稀疏离散特征寻找split point的时间开销。在逻辑实现上，为了保证完备性，会分别处理将missing该特征值的样本分配到左叶子结点和右叶子结点的两种情形。
在XGBoost里，单机多线程，并没有通过显式的pthread这样的方式来实现，而是通过OpenMP来完成多线程的处理，这可能跟XGBoost里多线程的处理逻辑相对简单，没有复杂的线程之间同步的需要，所以通过OpenMP可以支持得比较好，也简化了代码的开发和维护负担。
单机实现中，另一个重要的updater是TreePruner，这是一个为了减少overfit，在loss函数的正则项之外提供的额外正则化手段，实现逻辑也比较直观，对于已经构造好的Tree结构，判断每个叶子结点，如果这个叶子结点的父结点分裂所带来的loss变化小于配置文件中规定的阈值，就会把这个叶子结点和它的兄弟结点合并回父结点里，并且这个pruning操作会递归下去。

上面介绍的是精确的建模算法，在XGBoost中，出于性能优化的考虑，也提供了近似的建模算法支持，核心思想是在寻找split point的时候，不会枚举所有的特征值，而会对特征值进行聚合统计，然后形成若干个bucket，只将bucket边界上的特征值作为split point的候选，从而获得性能提升。

分布式实现

关于XGBoost的分布式实现，一共提供了两种支持，一种基于RABIT，另一种则基于Spark。其中XGBoost4j的底层通信实际上还是用到了RABIT。
Distributed XGBoost里针对核心算法分布式的主要逻辑还是基于RABIT完成的，XGBoost4j更像是在RABIT-based XGBoost上做了一层wrapper，工程量并不小，但是涉及到XGBoost核心算法的分布式细节并不多，所以后续的介绍，我也会主要cover基于RABIT的 XGBoost分布式实现。
把握Distributed XGBoost，需要从计算任务的调度管理和核心算法分布式实现这两个角度展开。
计算任务的调度管理，在RABIT里提供了native MPI/Sun Grid Engine/YARN这三种方式。native MPI这种方式，实际上除了计算任务的调度管理以外，也提供了相应的通信原语（在RABIT里，针对native MPI这种任务管理方式，只是在MPI_allreduce/MPI_broadcast这两个通信原语上做了一层简单的wrapper），所以更像一个纯粹的MPI计算任务，在这里我也不打算详述。XGboost on YARN这种模式涉及到的细节则最多，包括YARN ApplicationMaster/Client的开发、Tracker脚本的开发、RABIT容错通信原语的开发以及基于RABIT原语的XGBoost算法分布式实现，会是我介绍的重点。下面这张鸟噉图有助于建立起XGBoost on YARN的整体认识。

在这个图里，有几个重要的角色，分别介绍一下。
I. Tracker：这其实是一个Python写的脚本程序，主要完成的工作有

I). 启动daemon服务，提供worker结点注册联接所需的end point，所有的worker结点都可以通过与Tracker程序通信来完成自身状态信息的注册
II). co-ordinate worker结点的执行：为worker结点分配Rank编号。基于收到的worker注册信息完成网络结构的构建，并广播给worker结点，以确保worker结点之间建立起合规的网络拓扑。当所有的worker结点都建立起完备的网络拓扑关系以后，就可以启动计算任务监控整个执行过程。
II. Application Master：这其实是基于YARN AM接口的一个实现，完成的就是常规的YARN Application Master的功能，此处不再多述。
III. Client：这其实是基于YARN Client接口的一个实现。
IV. Worker：对应于实际的计算任务，本质上，每个worker结点（在YARN里应该称之为一个容器，因为一个结点上可以启动多个YARN容器）里都会启动一个XGBoost进程。这些XGBoost进程在初始化阶段，会通过与Tracker之间通信，完成自身信息的注册，同时会从Tracker里获取到完整的网络结构信息，从而完成通信所需的网络拓扑结构的构建。
V. RABIT Library：RABIT实现的通信原语，目前只支持allreduce和broadcast这两个原语，并且提供了一定的fault-tolerance支持（RABIT通信框架中存在Tracker这个单点，所以只能在一定程度上支持Worker上的错误异常，基本的实现套路是，基于YARN的failure recovery机制，对于transient network error以及硬件down机这样的异常都提供了一定程度的支持）。
VI. XGBoost Process：在单机版的逻辑之外，还提供了用于Worker之间通信的相关逻辑，主要的通信数据包括：树模型的最新参数(从Rank 0结点到其他结点)每次分裂叶子结点时，为了计算最优split point，所需从各个结点汇总的统计量，包括近似算法里为了propose split point所需的bucket信息、训练样本的梯度信息等（从其他结点到Rank 0结点） XGBoost4j的实现，我就不再详述，本质上就是一个XGBoost YARN的Spark wrapper，示意图：

示意图

从上图可以看出，在XGBoost4j里，XGBoost的分布式逻辑其实还是通过RABIT来完成的，并且是通过RabitTracker完成任务的co-ordination。

高频面试题

简单介绍一下XGBoost

首先需要说一说GBDT，它是一种基于boosting增强策略的加法模型，训练的时候采用前向分布算法进行贪婪的学习，每次迭代都学习一棵CART树来拟合之前 t-1 棵树的预测结果与训练样本真实值的残差。
XGBoost对GBDT进行了一系列优化，比如损失函数进行了二阶泰勒展开、目标函数加入正则项、支持并行和默认缺失值处理等，在可扩展性和训练速度上有了巨大的提升，但其核心思想没有大的变化。

XGBoost与GBDT有什么不同

基分类器：XGBoost的基分类器不仅支持CART决策树，还支持线性分类器，此时XGBoost相当于带L1和L2正则化项的Logistic回归（分类问题）或者线性回归（回归问题）。
导数信息：XGBoost对损失函数做了二阶泰勒展开，GBDT只用了一阶导数信息，并且XGBoost还支持自定义损失函数，只要损失函数一阶、二阶可导。
正则项：XGBoost的目标函数加了正则项，相当于预剪枝，使得学习出来的模型更加不容易过拟合。
列抽样：XGBoost支持列采样，与随机森林类似，用于防止过拟合。
缺失值处理：对树中的每个非叶子结点，XGBoost可以自动学习出它的默认分裂方向。如果某个样本该特征值缺失，会将其划入默认分支。
并行化：注意不是tree维度的并行，而是特征维度的并行。XGBoost预先将每个特征按特征值排好序，存储为块结构，分裂结点时可以采用多线程并行查找每个特征的最佳分割点，极大提升训练速度。

XGBoost为什么使用泰勒二阶展开

精准性：相对于GBDT的一阶泰勒展开，XGBoost采用二阶泰勒展开，可以更为精准的逼近真实的损失函数
可扩展性：损失函数支持自定义，只需要新的损失函数二阶可导。

XGBoost为什么可以并行训练

XGBoost的并行，并不是说每棵树可以并行训练，XGB本质上仍然采用boosting思想，每棵树训练前需要等前面的树训练完成才能开始训练。
XGBoost的并行，指的是特征维度的并行：在训练之前，每个特征按特征值对样本进行预排序，并存储为Block结构，在后面查找特征分割点时可以重复使用，而且特征已经被存储为一个个block结构，那么在寻找每个特征的最佳分割点时，可以利用多线程对每个block并行计算。

XGBoost为什么快

分块并行：训练前每个特征按特征值进行排序并存储为Block结构，后面查找特征分割点时重复使用，并且支持并行查找每个特征的分割点
候选分位点：每个特征采用常数个分位点作为候选分割点
CPU cache 命中优化：使用缓存预取的方法，对每个线程分配一个连续的buffer，读取每个block中样本的梯度信息并存入连续的Buffer中。
Block 处理优化：Block预先放入内存；Block按列进行解压缩；将Block划分到不同硬盘来提高吞吐

XGBoost防止过拟合的方法

XGBoost在设计时，为了防止过拟合做了很多优化，具体如下：

目标函数添加正则项：叶子节点个数+叶子节点权重的L2正则化
列抽样：训练的时候只用一部分特征（不考虑剩余的block块即可）
子采样：每轮计算可以不使用全部样本，使算法更加保守
shrinkage: 可以叫学习率或步长，为了给后面的训练留出更多的学习空间

XGBoost如何处理缺失值

XGBoost模型的一个优点就是允许特征存在缺失值。对缺失值的处理方式如下：

在特征k上寻找最佳 split point 时，不会对该列特征 missing 的样本进行遍历，而只对该列特征值为 non-missing 的样本上对应的特征值进行遍历，通过这个技巧来减少了为稀疏离散特征寻找 split point 的时间开销。
在逻辑实现上，为了保证完备性，会将该特征值missing的样本分别分配到左叶子结点和右叶子结点，两种情形都计算一遍后，选择分裂后增益最大的那个方向（左分支或是右分支），作为预测时特征值缺失样本的默认分支方向。
如果在训练中没有缺失值而在预测中出现缺失，那么会自动将缺失值的划分方向放到右子结点。

XGBoost中叶子结点的权重如何计算出来

XGBoost目标函数最终推导形式如下：

\[\text{obj}^{(t)} = \sum^T_{j=1} [G_jw_j + \frac{1}{2} (H_j+\lambda) w_j^2] +\gamma T \]

利用一元二次函数求最值的知识，当目标函数达到最小值$Obj^*$时，每个叶子结点的权重为$w_j^*$。
具体公式如下：

\[\begin{aligned}w_j^\ast &= -\frac{G_j}{H_j+\lambda}\\ \text{obj}^\ast &= -\frac{1}{2} \sum_{j=1}^T \frac{G_j^2}{H_j+\lambda} + \gamma T\end{aligned} \]

RF和GBDT的区别

相同点：

都是由多棵树组成，最终的结果都是由多棵树一起决定。
不同点：
集成学习：RF属于bagging思想，而GBDT是boosting思想
偏差-方差权衡：RF不断的降低模型的方差，而GBDT不断的降低模型的偏差
训练样本：RF每次迭代的样本是从全部训练集中有放回抽样形成的，而GBDT每次使用全部样本
并行性：RF的树可以并行生成，而GBDT只能顺序生成(需要等上一棵树完全生成)
最终结果：RF最终是多棵树进行多数表决（回归问题是取平均），而GBDT是加权融合
数据敏感性：RF对异常值不敏感，而GBDT对异常值比较敏感
泛化能力：RF不易过拟合，而GBDT容易过拟合

XGBoost如何处理不平衡数据

对于不平衡的数据集，例如用户的购买行为，肯定是极其不平衡的，这对XGBoost的训练有很大的影响，XGBoost有两种自带的方法来解决：
第一种，如果你在意AUC，采用AUC来评估模型的性能，那你可以通过设置scale_pos_weight来平衡正样本和负样本的权重。例如，当正负样本比例为1:10时，scale_pos_weight可以取10；
第二种，如果你在意概率(预测得分的合理性)，你不能重新平衡数据集(会破坏数据的真实分布)，应该设置max_delta_step为一个有限数字来帮助收敛（基模型为LR时有效）。
源码中通过增大了少数样本的权重来平衡样本。

比较LR和GBDT，说说什么情景下GBDT不如LR

先说说LR和GBDT的区别：

LR是线性模型，可解释性强，很容易并行化，但学习能力有限，需要大量的人工特征工程
GBDT是非线性模型，具有天然的特征组合优势，特征表达能力强，但是树与树之间无法并行训练，而且树模型很容易过拟合；
当在高维稀疏特征的场景下，LR的效果一般会比GBDT好。因为现在的模型普遍都会带着正则项，而 LR 等线性模型的正则项是对权重的惩罚，也就是 W1一旦过大，惩罚就会很大，进一步压缩 W1的值，使他不至于过大。但是，树模型则不一样，树模型的惩罚项通常为叶子节点数和深度等，而如果一个特征能够很好地划分正负样本，树只需要一个节点就可以完美分割样本，一个结点，最终产生的惩罚项极其之小。
这也就是为什么在高维稀疏特征的时候，线性模型会比非线性模型好的原因了：带正则化的线性模型比较不容易对稀疏特征过拟合。

XGBoost中如何对树进行剪枝

在目标函数中增加了正则项：使用叶子结点的数目和叶子结点权重的L2模的平方，控制树的复杂度。
在结点分裂时，定义了一个阈值，如果分裂后目标函数的增益小于该阈值，则不分裂。
当引入一次分裂后，重新计算新生成的左、右两个叶子结点的样本权重和。如果任一个叶子结点的样本权重低于某一个阈值（最小样本权重和），也会放弃此次分裂。
XGBoost 先从顶到底建立树直到最大深度，再从底到顶反向检查是否有不满足分裂条件的结点，进行剪枝。

XGBoost如何选择最佳分裂点？

XGBoost在训练前预先将特征按照特征值进行了排序，并存储为block结构，以后在结点分裂时可以重复使用该结构。
因此，可以采用特征并行的方法利用多个线程分别计算每个特征的最佳分割点，根据每次分裂后产生的增益，最终选择增益最大的那个特征的特征值作为最佳分裂点。
如果在计算每个特征的最佳分割点时，对每个样本都进行遍历，计算复杂度会很大，这种全局扫描的方法并不适用大数据的场景。XGBoost还提供了一种直方图近似算法，对特征排序后仅选择常数个候选分裂位置作为候选分裂点，极大提升了结点分裂时的计算效率。

XGBoost的Scalable性如何体现

基分类器的scalability：弱分类器可以支持CART决策树，也可以支持LR和Linear。
目标函数的scalability：支持自定义loss function，只需要其一阶、二阶可导。有这个特性是因为泰勒二阶展开，得到通用的目标函数形式。
学习方法的scalability：Block结构支持并行化，支持 Out-of-core计算。

XGBooost参数调优的一般步骤

首先需要初始化一些基本变量，例如：
max_depth = 5
min_child_weight = 1
gamma = 0
subsample, colsample_bytree = 0.8
scale_pos_weight = 1
(1) 确定learning rate和estimator的数量
learning rate可以先用0.1，用cv来寻找最优的estimators
(2) max_depth和 min_child_weight
我们调整这两个参数是因为，这两个参数对输出结果的影响很大。我们首先将这两个参数设置为较大的数，然后通过迭代的方式不断修正，缩小范围。
max_depth，每棵子树的最大深度，check from range(3,10,2)。
min_child_weight，子节点的权重阈值，check from range(1,6,2)。
如果一个结点分裂后，它的所有子节点的权重之和都大于该阈值，该叶子节点才可以划分。
(3) gamma
也称作最小划分损失min_split_loss，check from 0.1 to 0.5，指的是，对于一个叶子节点，当对它采取划分之后，损失函数的降低值的阈值。
如果大于该阈值，则该叶子节点值得继续划分
如果小于该阈值，则该叶子节点不值得继续划分
(4) subsample, colsample_bytree
subsample是对训练的采样比例
colsample_bytree是对特征的采样比例
both check from 0.6 to 0.9
(5) 正则化参数
alpha 是L1正则化系数，try 1e-5, 1e-2, 0.1, 1, 100
lambda 是L2正则化系数
(6) 降低学习率
降低学习率的同时增加树的数量，通常最后设置学习率为0.01~0.1

XGBoost模型如果过拟合了怎么解决

当出现过拟合时，有两类参数可以缓解：
第一类参数：用于直接控制模型的复杂度。包括max_depth,min_child_weight,gamma 等参数
第二类参数：用于增加随机性，从而使得模型在训练时对于噪音不敏感。包括subsample,colsample_bytree
还有就是直接减小learning rate，但需要同时增加estimator 参数。

XGBoost和LightGBM的区别

（1）树生长策略：XGB采用level-wise的分裂策略，LGB采用leaf-wise的分裂策略。XGB对每一层所有节点做无差别分裂，但是可能有些节点增益非常小，对结果影响不大，带来不必要的开销。Leaf-wise是在所有叶子节点中选取分裂收益最大的节点进行的，但是很容易出现过拟合问题，所以需要对最大深度做限制。
（2）分割点查找算法：XGB使用特征预排序算法，LGB使用基于直方图的切分点算法，其优势如下：

减少内存占用，比如离散为256个bin时，只需要用8位整形就可以保存一个样本被映射为哪个bin(这个bin可以说就是转换后的特征)，对比预排序的exact greedy算法来说（用int_32来存储索引+ 用float_32保存特征值），可以节省7/8的空间。
计算效率提高，预排序的Exact greedy对每个特征都需要遍历一遍数据，并计算增益，复杂度为𝑂(#𝑓𝑒𝑎𝑡𝑢𝑟𝑒×#𝑑𝑎𝑡𝑎)。而直方图算法在建立完直方图后，只需要对每个特征遍历直方图即可，复杂度为𝑂(#𝑓𝑒𝑎𝑡𝑢𝑟𝑒×#𝑏𝑖𝑛𝑠)。
LGB还可以使用直方图做差加速，一个节点的直方图可以通过父节点的直方图减去兄弟节点的直方图得到，从而加速计算

但实际上xgboost的近似直方图算法也类似于lightgbm这里的直方图算法，为什么xgboost的近似算法比lightgbm还是慢很多呢？xgboost在每一层都动态构建直方图，因为xgboost的直方图算法不是针对某个特定的feature，而是所有feature共享一个直方图(每个样本的权重是二阶导)，所以每一层都要重新构建直方图，而lightgbm中对每个特征都有一个直方图，所以构建一次直方图就够了。

（3）支持离散变量：无法直接输入类别型变量，因此需要事先对类别型变量进行编码（例如独热编码），而LightGBM可以直接处理类别型变量。
（4）缓存命中率：XGB使用Block结构的一个缺点是取梯度的时候，是通过索引来获取的，而这些梯度的获取顺序是按照特征的大小顺序的，这将导致非连续的内存访问，可能使得CPU cache缓存命中率低，从而影响算法效率。而LGB是基于直方图分裂特征的，梯度信息都存储在一个个bin中，所以访问梯度是连续的，缓存命中率高。
（5）LightGBM 与 XGboost 的并行策略不同：

特征并行：LGB特征并行的前提是每个worker留有一份完整的数据集，但是每个worker仅在特征子集上进行最佳切分点的寻找；worker之间需要相互通信，通过比对损失来确定最佳切分点；然后将这个最佳切分点的位置进行全局广播，每个worker进行切分即可。XGB的特征并行与LGB的最大不同在于XGB每个worker节点中仅有部分的列数据，也就是垂直切分，每个worker寻找局部最佳切分点，worker之间相互通信，然后在具有最佳切分点的worker上进行节点分裂，再由这个节点广播一下被切分到左右节点的样本索引号，其他worker才能开始分裂。二者的区别就导致了LGB中worker间通信成本明显降低，只需通信一个特征分裂点即可，而XGB中要广播样本索引。
数据并行：当数据量很大，特征相对较少时，可采用数据并行策略。LGB中先对数据水平切分，每个worker上的数据先建立起局部的直方图，然后合并成全局的直方图，采用直方图相减的方式，先计算样本量少的节点的样本索引，然后直接相减得到另一子节点的样本索引，这个直方图算法使得worker间的通信成本降低一倍，因为只用通信以此样本量少的节点。XGB中的数据并行也是水平切分，然后单个worker建立局部直方图，再合并为全局，不同在于根据全局直方图进行各个worker上的节点分裂时会单独计算子节点的样本索引，因此效率贼慢，每个worker间的通信量也就变得很大。
投票并行（LGB）：当数据量和维度都很大时，选用投票并行，该方法是数据并行的一个改进。数据并行中的合并直方图的代价相对较大，尤其是当特征维度很大时。大致思想是：每个worker首先会找到本地的一些优秀的特征，然后进行全局投票，根据投票结果，选择top的特征进行直方图的合并，再寻求全局的最优分割点。

最后，附一份备忘单，希望能够帮助大家系统化的掌握XGB原理的整个推导过程，同时又能够起到快速回忆的作用。

备忘单

参考：

知乎
 Datawhale
PPT by wepon
xgboost官方网站
 xgboost算法总结
 XGBoost的python源码实现
 通俗理解kaggle比赛大杀器xgboost
机器学习竞赛大杀器XGBoost--原理篇
 xgboost特征重要性指标: weight, gain, cover

posted @ 2019-09-22 22:32 Jamest 阅读(3262) 评论(0) 收藏举报

刷新页面返回顶部

Jamest