LightGBM和XGBoost的区别？

首先声明，LightGBM是针对大规模数据（样本量多，特征多）时，对XGBoost算法进行了一些优化，使得速度有大幅度提高，但由于优化方法得当，而精度没有减少很多或者变化不大，理论上还是一个以精度换速度的目的。如果数据量不大，那就对XGBoost没有什么优势了。

我认为有这几点：

1.GOSS(Gradient-based One-Side Sampling),基于梯度的单侧采样，对训练样本的采样。

如原始训练数据100w，高梯度数据有1w，那么会计算 1w+随机选择b%*余下的99w数据，然后把后部分数据进行加倍（*（1-a)/b),基于这些数据来得到特征的切分点。

2.EFB(Exclusive Feature Bundling),排斥特征整合，通过对某些特征整合来降低特征数量。

上面两点是在原论文中多次提到的，主要的不同。

参考原论文：https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdf

其它的我认为还有两点：

3.查找连续变量切分点的方法

XGBoost默认使用的是pre-sorted algorithm,即先将连续变量排序，然后从前向后计算每个切分点后的信息增益，这样算法复杂度是#data*#feature。好像也可以支持使用histogram。

LightGBM使用的是histogram-based algorithms，即将连续值先bin成k箱,然后再求切分点，每次计算切分点的复杂度是#k*#feature,但这样会有一些精度损失。但由于，a粗精度可以相当于正则化的效果，防止过拟合。b单棵树的精度可能会差一些，但在gbdt框架下，总体的效果不一定差。c在gbdt中决策树是弱模型，精度不高影响也不大。

4.树的生长方式

XGBoost是level(depdh)-wise,即左右子树都是一样深的，要生长一块生长，要停一块停。

LightGBM是leaf-wise,即可能左右子树是不一样深的，即使左子树已经比右子树深很多，但只要左子树的梯度划分仍然比右子树占优，就继续在左子树进行划分。

5、对类别特征的支持

实际上大多数机器学习工具都无法直接支持类别特征，一般需要把类别特征，转化到多维的0/1 特征，降低了空间和时间的效率。而类别特征的使用是在实践中很常用的。基于这个考虑，LightGBM 优化了对类别特征的支持，可以直接输入类别特征，不需要额外的0/1 展开。并在决策树算法上增加了类别特征的决策规则。在 Expo 数据集上的实验，相比0/1 展开的方法，训练速度可以加速 8 倍，并且精度一致。据我们所知，LightGBM 是第一个直接支持类别特征的 GBDT 工具。
参考：https://blog.csdn.net/friyal/article/details/82756777

lightGBM原理

posted on 2019-11-28 16:03 静静的白桦林_andy 阅读(2788) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

静静的白桦林

LightGBM和XGBoost的区别？

导航