论文笔记:LightGBM: A Highly Efficient Gradient Boosting Decision Tree

引言

　　GBDT已经有了比较成熟的应用，例如XGBoost和pGBRT，但是在特征维度很高数据量很大的时候依然不够快。一个主要的原因是，对于每个特征，他们都需要遍历每一条数据，对每一个可能的分割点去计算信息增益。为了解决这个问题，本文提出了两个新技术：Gradient-based One-Side Sampling(GOSS)和Exclusive Feature Bundling(EFB)。

Histogram-based Algorithm

　　基于直方图的方法比基于预排序的方式要更加高效,这里对这个算法做一个简单的描述.算法的概要图如下所示:

　　直方图优化算法需要在训练前预先把特征值转化为bin value，也就是对每个特征的取值做个分段函数，将所有样本在该特征上的取值划分到某一段（bin）中,最终把特征取值从连续值转化成了离散值.直观的示例如下所示:

　　使用直方图算法有很多优点。首先，最明显就是内存消耗的降低，直方图算法不仅不需要额外存储预排序的结果，而且可以只保存特征离散化后的值.然后在计算上的代价也大幅降低，XGBoost预排序算法每遍历一个特征值就需要计算一次分裂的增益,而直方图算法只需要计算k $k$

$k$ 当然，Histogram算法并不是完美的。由于特征被离散化后，找到的并不是很精确的分割点，所以会对结果产生影响。但在不同的数据集上的结果表明，离散化的分割点对最终的精度影响并不是很大，甚至有时候会更好一点。原因是决策树本来就是弱模型，分割点是不是精确并不是太重要；较粗的分割点也有正则化的效果，可以有效地防止过拟合；即使单棵树的训练误差比精确分割的算法稍大，但在梯度提升（Gradient Boosting）的框架下没有太大的影响。

Gradient-based One-Side Sampling

$k$

Exclusive Feature Bundling

$k$ $k$

$k$

(2) 这一步的关键要解决的问题是确保可以从合并之后的特征束中识别原始特征的值.使用基于直方图的的算法存储的是离散的值而不是连续的值,我们可以让独占特征驻留在不同的区间中来构建新的约束特征.可以通过添加offset的方式来实现这个想法.例如,我们有两个特征A以及B,特征A从[0,10]取值,B从[0,20]中取值,可以让B在原始取值的基础上加上一个10的偏移量,使得B从[10,30]中获取值.这样处理之后可以保证,A以及B合并的安全性.详细的流程如下所示:

$k$

(2) 带深度限制的Leaf-wise的叶子生长策略

　　Level-wise过一次数据可以同时分裂同一层的叶子，容易进行多线程优化，也好控制模型复杂度，不容易过拟合。但实际上Level-wise是一种低效的算法，因为它不加区分的对待同一层的叶子，带来了很多没必要的开销，因为实际上很多叶子的分裂增益较低，没必要进行搜索和分裂。

　　Leaf-wise则是一种更为高效的策略，每次从当前所有叶子中，找到分裂增益最大的一个叶子，然后分裂，如此循环。因此同Level-wise相比，在分裂次数相同的情况下，Leaf-wise可以降低更多的误差，得到更好的精度。Leaf-wise的缺点是可能会长出比较深的决策树，产生过拟合。因此LightGBM在Leaf-wise之上增加了一个最大深度的限制，在保证高效率的同时防止过拟合。

(3) 直接支持类别特征（即不需要做one-hot编码）

　　实际上大多数机器学习工具都无法直接支持类别特征，一般需要把类别特征，转化到多维的one-hot编码特征，降低了空间和时间的效率。而类别特征的使用是在实践中很常用的。基于这个考虑，LightGBM优化了对类别特征的支持，可以直接输入类别特征，不需要额外的one-hot编码展开。并在决策树算法上增加了类别特征的决策规则。在Expo数据集上的实验，相比0/1展开的方法，训练速度可以加速8倍，并且精度一致。

（https://www.biaodianfu.com/lightgbm.html）这里有详细的说明

引用：

[1] https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdf

[2] https://www.cnblogs.com/jiangxinyang/p/9337094.html

[3] https://www.jianshu.com/p/0d32a8bfa511

[4] https://blog.csdn.net/anshuai_aw1/article/details/83040541

posted @ 2019-09-11 15:52 猪突猛进！！！阅读(1213) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

不搞事情和咸鱼有什么区别

论文笔记:LightGBM: A Highly Efficient Gradient Boosting Decision Tree

公告