论文阅读： LGB

Abstract

Gradient Boosting Decision Tree (GBDT)非常流行却鲜有实现，只有像XGBoost和pGBRT实现。当特征维度较高和数据量巨大的时候，仍然存在效率和可扩展性的问题。一个主要原因就是对于每一个特征的每一个分裂点，都需要遍历全部数据计算信息增益，这一过程非常耗时。针对这一问题，本文提出两种新方法：Gradient-based One-Side Sampling (GOSS) 和Exclusive Feature Bundling (EFB)（基于梯度的one-side采样和互斥的特征捆绑）。在GOSS中，我们排除了重要的比例-具有小梯度的实例，只用剩下的来估计信息增益，我们证明，这些梯度大的实例在计算信息增益中扮演重要角色，GOSS可以用更小的数据量对信息增益进行相当准确的估计。对于EFB，我们捆绑互斥的特征（例如，特征间很少同时非零的特征），来降低特征的个数。我们完美地证明了捆绑互斥特征是NP难的，但贪心算法能够实现相当好的逼近率，因此我们能够在不损害分割点准确率许多的情况下，有效减少特征的数量。（牺牲一点分割准确率降低特征数量），这一算法命名为LightGBM。在多个公共数据集实验证明，LightGBM加速了传统GBDT训练过程20倍以上，同时达到了几乎相同的精度。

1. Introduction

GBDT因为其本身的有效性、准确性、可解释性，成为了广泛使用的机器学习算法。GBDT在许多机器学习任务上均取得了最好的效果，例如多分类，点击预测，排序。但最近几年随着大数据的爆发（特征量和数据量），GBDT面临平衡准确率和效率的调整。

GBDT缺点：对于每一个特征的每一个分裂点，都需要遍历全部数据来计算信息增益。因此，其计算复杂度将受到特征数量和数据量双重影响，造成处理大数据时十分耗时。

解决这个问题的直接方法就是减少特征量和数据量而且不影响精确度，有部分工作根据数据权重采样来加速boosting的过程，但由于gbdt没有样本权重而不能应用。而本文提出两种新方法实现此目标。

Gradient-based One-Side Sampling (GOSS)：GBDT虽然没有数据权重，但每个数据实例有不同的梯度，根据计算信息增益的定义，梯度大的实例对信息增益有更大的影响，因此在下采样时，我们应该尽量保留梯度大的样本（预先设定阈值，或者最高百分位间），随机去掉梯度小的样本。我们证明此措施在相同的采样率下比随机采样获得更准确的结果，尤其是在信息增益范围较大时。

Exclusive Feature Bundling (EFB)：通常在真实应用中，虽然特征量比较多，但是由于特征空间十分稀疏，是否可以设计一种无损的方法来减少有效特征呢？特别在稀疏特征空间上，许多特征几乎是互斥的（例如许多特征不会同时为非零值，像one-hot），我们可以捆绑互斥的特征。最后，我们将捆绑问题归约到图着色问题，通过贪心算法求得近似解。

2. Preliminaries

2.1 GBDT and Its Complexity Analysis

GBDT是一种集成模型的决策树，顺序训练决策树。每次迭代中，GBDT通过拟合负梯度（残差）来学到决策树。

学习决策树是GBDT主要的时间花销，而学习决策树中找到最优切分点最消耗时间。广泛采用的预排序算法来找到最优切分点，这种方法会列举预排序中所有可能的切分点。这种算法虽然能够找到最优的切分点，但对于训练速度和内存消耗上都效率低。另一种流行算法是直方图算法（histogram-based algorithm）。直方图算法并不通过特征排序找到最优的切分点，而是将连续的特征值抽象成离散的分箱，并使用这些分箱在训练过程中构建特征直方图，这种算法更加训练速度和内存消耗上都更加高效，lightGBM使用此种算法。

histogram-based算法通过直方图寻找最优切分点，其建直方图消耗O(#data * #feature)，寻找最优切分点消耗O(#bin * # feature)，而#bin的数量远小于#data，所以建直方图为主要时间消耗。如果能够减少数据量或特征量，那么还能够够加速GBDT的训练。（寻找最优切分点已经进行了优化，那么我们现在应该对建直方图的时间进行优化）

GBDT有许多实现，如XGBoost，PGBRT，Scikit-learn，gbm in R。Scikit-learn和gbm in R实现都用了预排序，pGBRT使用了直方图算法，XGBoost支持预排序和直方图算法，由于XGBoost胜过其他算法，我们用它作为baseline。

为了减小训练数据集，通常做法是下采样。例如过滤掉权重小于阈值的数据。SGB每次迭代中用随机子集训练弱学习器。或者采样率基于训练过程动态调整。基于AdaBoost的SGB不能直接应用于GBDT，因为GBDT中没有原始的权重。虽然SGB也能间接应用于GBDT，但往往会影响精度。

同样，可以考虑过滤掉弱特征（什么是弱特征）来减少特征量。通常用主成分分析或者投影法。当然，这些方法依赖于一个假设-特征有高冗余性，但实际中往往不是。（设计特征来自于其独特的贡献，移除任何一维度都可以某种程度上影响精度）。

实际中大规模的数据集通常都是非常稀疏的，使用预排序算法的GBDT能够通过无视为0的特征来降低训练时间消耗。然而直方图算法没有优化稀疏的方案。因为直方图算法无论特征值是否为0，都需要为每个数据检索特征区间值。如果基于直方图的GBDT能够有效解决稀疏特征中的0值，那么这样将会有很好的性能。

下图为直方图算法的流程：

3. Gradient-based One-Side Sampling

GOSS是一种在减少数据量和保证精度上平衡的算法。

3.1 Algorithm Description

AdaBoost中，样本权重是数据实例重要性的指标。然而在GBDT中没有原始样本权重，不能应用权重采样。幸运的事，我们观察到GBDT中每个数据都有不同的梯度值，对采样十分有用，即实例的梯度小，实例训练误差也就较小，已经被学习得很好了，直接想法就是丢掉这部分梯度小的数据。然而这样做会改变数据的分布，将会影响训练的模型的精确度，为了避免此问题，我们提出了GOSS。

GOSS保留所有的梯度较大的实例，在梯度小的实例上使用随机采样（Random sampling）。为了抵消对数据分布的影响，计算信息增益的时候，GOSS对小梯度的数据引入常量乘数。GOSS首先根据数据的梯度绝对值排序，选取top a个实例。然后在剩余的数据中随机采样b个实例。接着计算信息增益时为采样出的小梯度数据乘以(1-a)/b（即，小梯度样本总数/随机采样出的小梯度样本数量），这样算法就会更关注训练不足的实例，而不会过多改变原数据集的分布。

GOSS的算法流程如下：

3.2 Theoretical Analysis

GBDT使用决策树，来学习获得一个将输入空间映射到梯度空间的函数。假设训练集有n个实例 ${x_1,...,x_n}$ ，特征维度为s。每次迭代时，模型数据变量的损失函数的负梯度方向表示为 $g_1,...,g_n$ ，决策树通过最优切分点（最大信息增益点）将数据分到各个节点。GBDT通过分割后的方差衡量信息增益

定义3.1：O表示某个固定叶子节点的训练集，分割特征j的分割点d定义为：

$V_{j|O}(d) = \frac{1}{n_O} ( \frac{ ( \sum_{ {x_i \in O: x_{ij} \le d } } g_i )^2 }{n^j_{l|O}(d)} + \frac{ ( \sum_{ {x_i \in O: x_{ij} > d } } g_i )^2 }{n^j_{r|O}(d)} )$

其中， $n_O = \sum I[x_i \in O]$ (某个固定叶子节点的训练集样本的个数)， $n^j_{l|O}(d) = \sum I[x_i \in O: x_i \le d ]$ (在第j个特征上值小于等于d的样本个数)， $n^j_{r|O} (d)= \sum I[x_i \in O: x_i > d ]$ (在第j个特征上值大于d的样本个数)。

遍历每个特征的每个分裂点，找到 $d^*_j = argmax_d V_j(d)$ 并计算最大的信息增益 $V_j(d_j^*)$ ，然后，将数据根据特征 $j^*$ 的分裂点 $d_{j^*}$ 将数据分到左右子节点。

在GOSS中，

首先根据数据的梯度进行降序排序。
保留top %a个数据实例，作为数据子集A。
对于剩下的数据的实例集合 $A^c$ ，随机采样获得大小为 $b*|A^c|$ 的数据子集B。
最后我们在集合 $A\cup B$ 上，通过以下方程估计信息增益 $\tilde V_j(d)$ :

$\tilde{V}_j (d) = \frac{1}{n} ( \frac{ ( \sum_{ {x_i \in A: x_{ij} \le d } } g_i + \frac{1-a}{b}\sum_{ {x_i \in B: x_{ij}\le d } } g_i )^2 }{n_l^{j}(d)} + \frac{ ( \sum_{ {x_i \in A: x_{ij} > d } } g_i + \frac{1-a}{b}\sum_{ {x_i \in B: x_{ij} > d } } g_i )^2 }{n_r^{j}(d)} )$

此处GOSS通过较小的数据集估计信息增益 $\tilde{V}{j}(d)$ ，将大大地减小计算量。更重要的是，我们接下来理论表明GOSS不会丢失许多训练精度，且胜过随机采样，理论的证明在附加材料(参考文献【2】)。

Theorem 3.2：我们定义GOSS近似误差为 $\epsilon (d)=|\tilde{V}{j}(d)-{V}{j}(d)|$ ， $\bar{g}_l^j(d)=\frac{\sum_{x_i \in (A \cup A^c)_l} |g_i|}{n_l^j(d)}$ ， $\bar{g}_r^j(d)=\frac{\sum{x_i \in (A \cup A^c)_r} |g_i|}{n_r^j(d)}$ ，概率至少是 $1- \delta$ ，有：

$\varepsilon(d) \le C_{a, b}^2 \ln (1/\delta) * \max{ \frac{1}{n_l^j(d)} , \frac{1}{n_r^j(d)} } + 2*D*C_{a,b} \sqrt{ \frac{\ln(1/\delta)}{n}}$

其中 $C_{a,b}=\frac{1-a}{\sqrt{b}} \max_{x \in A^c}{|g_i|}, D=\max(\bar{g}_l^j(d), \bar{g}_r^j(d))$ 。

根据理论3.2，我们得出以下结论：

GOSS的渐近近似比率 $O(\frac{1}{n_l^j(d)}+ \frac{1}{n_r^j(d)} + \frac{1}{\sqrt{n}})$ 。如果数据分割不是极不平衡（也就是 $n_l^j(d) \ge O(\sqrt{n})$ 且 $n_r^j (d)\ge O(\sqrt{n})$ ），那么定理3.2中近似误差将由第二项主导，且在第二项中，当n趋于无穷（数据量很大）时 $1/O(\sqrt{n})$$ 将趋于0，即数据量越大，误差越小，精度越高。

随机采样是GOSS在a=0的一种情况。多数情况下，GOSS性能优于随机采样，即以下情况： $C_{0,\beta }>C_{a,\beta-a }$ (C代表误差，即随机抽 $\beta$ 比例的误差大于先抽top a%比例再抽 $\beta -a$ 比例的误差)，等价于 $\frac{\alpha_a}{\sqrt{\beta}} \leq \frac{1-a}{\sqrt{\beta-a}}$ ，其中 $\alpha_a = \max_{x_i \in A \cup A^c} |g_i| / \max_{x_i \in A^c} |g_i|$ 。

（其实这里 $C_{0,\beta }=\frac{1}{\sqrt{\beta}}*\max_{x_i \in A \cup A^c} |g_i|$ ， $C_{a,\beta-a }=\frac{1-a}{\sqrt{\beta-a}}*\max_{x_i \in A^c} |g_i|$ ，代入 $C_{0,\beta }>C_{a,\beta-a }$ ，就可以得到等价的不等式）

下面分析GOSS的泛化性。考虑GOSS泛化误差 $\varepsilon_{gen}^{GOSS}(d) = |\tilde{V}_j(d) - V_*(d)|$ ，这是GOSS抽样的的实例计算出的方差增益与实际样本方差增益之间的差距。变换为， $\varepsilon_{gen}^{GOSS}(d) \leq |\tilde{V}_j(d) - V_j(d)|+ |V_j(d) - V_*(d)| \triangleq \varepsilon_{GOSS}(d)+ \varepsilon_{gen}(d)$ ，因此，在GOSS准确的情况下，GOSS泛化误差近似于全量的真实数据。另一方面，采样将增加基学习器的多样性（因为每次采样获得的数据可能会不同），这将提高泛化性。

4 Exclusive Feature Bundling

这一章介绍如何有效减少特征的数量。

高维的数据通常是稀疏的，这种稀疏性启发我们可以设计一种无损地方法来减少特征的维度。特别地，在稀疏特征空间中，许多特征是互斥的，即它们从不同时为非零值。我们可以绑定互斥的特征为单一特征，通过仔细设计特征扫描算法，我们从特征捆绑中构建了与单个特征相同的特征直方图。这种方式的构建直方图时间复杂度从O(#data * #feature)降到O(#data * #bundle)，由于#bundle << # feature，我们能够极大地加速GBDT的训练过程而且不损失精度。(构造直方图的时候，遍历一个“捆绑的大特征”可以得到一组exclusive feature的直方图。这样只需要遍历这些“大特征”就可以获取到所有特征的直方图，降低了需要遍历的特征量。)

有两个问题：

怎么判定哪些特征应该绑在一起（build bundled）？
怎么把特征绑为一个（merge feature）？

4.1 bundle（什么样的特征被绑定）？

理论 4.1：将特征分割为较小量的互斥特征群是NP难的。

证明：将图着色问题归约为此问题，而图着色是NP难的，所以此问题就是NP难的。

给定图着色实例G=(V, E)。以G的关联矩阵的每一行为特征，得到我们问题的一个实例有|V|个特征。很容易看到，在我们的问题中，一个独特的特征捆绑包与一组具有相同颜色的顶点相对应，反之亦然。

对于第1个问题，理论4.1说明在多项式时间中求解这个NP难问题是不可行的。为了寻找好的近似算法，我们将最优捆绑问题归结为图着色问题，如果两个特征之间不是相互排斥，那么我们用一个边将他们连接，然后用合理的贪婪算法（具有恒定的近似比）用于图着色来做特征捆绑。此外，我们注意到通常有很多特征，尽管不是100％相互排斥的，也很少同时取非零值。如果我们的算法可以允许一小部分的冲突，我们可以得到更少的特征包，进一步提高计算效率。经过简单的计算，随机污染小部分特征值将影响精度最多 $O([(1 - \gamma)n ]^ {-2/3})$ (参考文献【2】)， $\gamma$ 是每个绑定中的最大冲突比率，当其相对较小时，能够完成精度和效率之间的平衡。

基于上面的讨论，我们设计了算法3，伪代码见下图，具体算法：

建立一个图，每个点代表特征，每个边有权重，其权重和特征之间总体冲突相关。
按照降序排列图中点的度来排序特征。
检查排序之后的每个特征，对它进行特征绑定或者建立新的绑定使得操作之后的总体冲突最小（由 $\gamma$ 控制）。

算法3的时间复杂度是 $O(#feature^2)$ ，训练之前只处理一次，其时间复杂度在特征不是特别多的情况下是可以接受的，但难以应对百万维的特征。为了继续提高效率，我们提出了一个更加高效的不用构建图的排序策略：将特征按照非零值个数排序，这和使用图节点的度排序相似，因为更多的非零值通常会导致冲突。新算法在算法3基础上只是改变了排序策略。

4.2 merging features(特征合并)

对于第2个问题，如何合并同一个bundle的特征来降低训练时间复杂度。关键在于原始特征值可以从bundle中区分出来。鉴于直方图算法存储离散值而不是连续特征值，我们通过将互斥特征放在不同的箱中来构建bundle。这可以通过将偏移量添加到特征原始值中实现，例如，假设bundle中有两个特征，原始特征A取值[0, 10]，B取值[0, 20]。我们添加偏移量10到B中，因此B取值[10, 30]。通过这种做法，就可以安全地将A、B特征合并，使用一个取值[0, 30]的特征取代A和B。算法见算法4，算法流程如下：

EFB算法能够将许多互斥的特征变为低维稠密的特征，就能够有效的避免不必要0值特征的计算。实际，对每一个特征，建立一个记录数据中的非零值的表，通过用这个表，来忽略零值特征，达到优化基础的直方图算法的目的。通过扫描表中的数据，建直方图的时间复杂度将从O(#data)降到O(#non_zero_data)。当然，这种方法在构建树过程中需要而额外的内存和计算开销来维持这种表。我们在lightGBM中将此优化作为基本函数，因为当bundles是稀疏的时候，这个优化与EFB不冲突（可以用于EFB）

5 Experiments

实验部分，比较简单。主要用了五个公开数据集，且这些数据集都比较大，而且包含了稀疏和稠密的特征，涵盖了很多真实的业务，因此它们能够完全地测试lightGBM的性能。

经过与XGBoost，lightgbm without GOSS and EFB和SGB的对比，证明了LightGBM在计算速度和内存消耗上明显优于XGBoost和SGB，且不损失准确率。

这部分详细内容可以看参考文献1和2.

6 Conclusion

本文提出了新颖的GBDT算法–LightGBM，它包含了2个新颖的技术：Gradient-based One-Side Sampling (GOSS) 和Exclusive Feature Bundling (EFB)（基于梯度的one-side采样和互斥的特征捆绑）来处理大数据量和高维特征的场景。我们在理论分析和实验研究表明，GOSS和EFB使得LightGBM在计算速度和内存消耗上明显优于XGBoost和SGB。

未来，我们将研究优化如何在GOSS中选择a，b。继续提高EFB在高维特征上的性能，无论其是否是稀疏的。

GBDT存在的几个问题
如何减少数据量

常用的减少训练数据量的方式是down sample。例如在[5]中，权重小于阈值的数据会被过滤掉，SGB在每一轮迭代中用随机的子集训练弱学习器；在[6]中，采样率会在训练过程中动态调整。但是，所有这些工作除了SGB外都是基于AdaBoost的，并且由于GBDT没有数据实例的权重，所以不能直接运用到GBDT上。虽然SGB可以应用到GBDT，但是它这种做法对acc影响太大了。

如何减少特征

类似的，为了减少特征的数量，需要过滤若特征[22, 23, 7, 24]。这通常用PCA和projection pursuit来做。可是，这些方法高度依赖一个假设，那就是特征包含相当多的冗余的信息。而这个假设在实践中通常不成立（因为通常特征都被设计为具有独特作用的，移除了哪个都可能对训练的acc有影响）

关于稀疏的数据

现实应用中的大规模数据通常是相当稀疏的。使用pre-sorted algorithm的GBDT可以通过忽略值为0的特征来降低训练的开销。而使用histogram-based algorithm的GBDT没有针对稀疏数据的优化方案，因为histogram-based algorithm无论特征值是否为0，都需要检索特征的bin值，所以它能够有效地利用这种稀疏特性。

为了解决上面的这些问题，我们提出了两个新的技术——GOSS和EFB。

引入LightGBM
1.LightGBM是微软2017年新提出的，比Xgboost更强大、速度更快的模型，性能上有很大的提升，与传统算法相比具有的优点：

*更快的训练效率

*低内存使用

*更高的准确率

*支持并行化学习

*可处理大规模数据

*原生支持类别特征，不需要对类别特征再进行0-1编码这类的

2.LightGBM一大的特点是在传统的GBDT基础上引入了两个新技术和一个改进：

（1）Gradient-based One-Side Sampling(GOSS)技术是去掉了很大一部分梯度很小的数据，只使用剩下的去估计信息增益，避免低梯度长尾部分的影响。由于梯度大的数据在计算信息增益的时候更重要，所以GOSS在小很多的数据上仍然可以取得相当准确的估计值。

（2）Exclusive Feature Bundling(EFB)技术是指捆绑互斥的特征(i.e.，他们经常同时取值为0)，以减少特征的数量。但对互斥特征寻找最佳的捆绑方式是一个NP难问题，当时贪婪算法可以取得相当好的近似率(因此可以在不显著影响分裂点选择的准确性的情况下，显著地减少特征数量)。

（3）在传统GBDT算法中，最耗时的步骤是找到最优划分点，传统方法是Pre-Sorted方式，其会在排好序的特征值上枚举所有可能的特征点，而LightGBM中会使用histogram算法替换了传统的Pre-Sorted。基本思想是先把连续的浮点特征值离散化成k个整数，同时构造出图8所示的一个宽度为k的直方图。最开始时将离散化后的值作为索引在直方图中累积统计量，当遍历完一次数据后，直方图累积了离散化需要的统计量，之后进行节点分裂时，可以根据直方图上的离散值，从这k个桶中找到最佳的划分点，从而能更快的找到最优的分割点，而且因为直方图算法无需像Pre-Sorted那样存储预排序的结果，而只是保存特征离散过得数值，所以使用直方图的方式可以减少对内存的消耗。

Pre-sorted 算法需要 O(data) 次的计算
Histogram 算法只需要计算 O(bins) 次, 并且 bins 远少于data（直方图仍然需要 O(#data) 次来构建直方图, 而这仅仅包含总结操作，只是第一次做data此即可）

优势
相比XGboost，其更强大的原因是：

（1）histogram算法替换了传统的Pre-Sorted，某种意义上是牺牲了精度换取速度，直方图作差构建叶子直方图更有创造力（直方图算法的基本思想：先把连续的浮点特征值离散化成k个整数，同时构造一个宽度为k的直方图。遍历数据时，根据离散化后的值作为索引在直方图中累积统计量，当遍历一次数据后，直方图累积了需要的统计量，然后根据直方图的离散值，遍历寻找最优的分割点[利于计算分割打分]。）。

（2）带有深度限制的按叶子生长 (leaf-wise) 算法代替了传统的(level-wise) 决策树生长策略，提升精度，同时避免过拟合危险（不太深了）。

（3）内存做了优化，内存中仅仅需要保存直方图数值，而不是之前的所有数据，另外如果直方图比较小的时候，我们还可以使用保存uint8的形式保存来训练数据。

（4）额外的优化还有Cache命中率优化、多线程优化。 lightGBM优越性：速度快，代码清晰，占用内存小。lightGBM可以在更小的代价下控制分裂树。有更好的缓存利用，是带有深度限制的按叶子生长的策略，使用了leaf-wise策略，每次从当前所有叶子中，找到分裂增益最大的一个叶子，然后进行分裂，不断的进行循环下去，而lead-wise（智能）算法的缺点是可能生长出比较深的决策树，导致过拟合问题，为了解决过拟合问题，我们会在LightGBM中会对leaf-wise之上增加一个最大深度的限制，在保持高效率的同时防止过拟合。

posted @ 2020-03-28 10:30 louieworth 阅读(1026) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

jiangli

stay foolish, stay healthy.

论文阅读： LGB

Abstract

1. Introduction

2. Preliminaries

2.1 GBDT and Its Complexity Analysis

3. Gradient-based One-Side Sampling

3.1 Algorithm Description

3.2 Theoretical Analysis

4 Exclusive Feature Bundling

4.1 bundle（什么样的特征被绑定）？

4.2 merging features(特征合并)

5 Experiments

6 Conclusion

公告

jiangli

stay foolish, stay healthy.

论文阅读： LGB

Abstract

1. Introduction

2. Preliminaries

2.1 GBDT and Its Complexity Analysis

2.2 Related Work

3. Gradient-based One-Side Sampling

3.1 Algorithm Description

3.2 Theoretical Analysis

4 Exclusive Feature Bundling

4.1 bundle（什么样的特征被绑定）？

4.2 merging features(特征合并)

5 Experiments

6 Conclusion

公告