应用一：XGBoost用来做预测

——————————————————————————————————————————————————

一、XGBoost来历

xgboost的全称是eXtreme Gradient Boosting。正如其名，它是Gradient Boosting Machine的一个c++实现，作者为正在华盛顿大学研究机器学习的大牛陈天奇。他在研究中深感自己受制于现有库的计算速度和精度，因此在一年前开始着手搭建xgboost项目，并在去年夏天逐渐成型。xgboost最大的特点在于，它能够自动利用CPU的多线程进行并行，同时在算法上加以改进提高了精度。它的处女秀是Kaggle的希格斯子信号识别竞赛，因为出众的效率与较高的预测准确度在比赛论坛中引起了参赛选手的广泛关注，在1700多支队伍的激烈竞争中占有一席之地。随着它在Kaggle社区知名度的提高，最近也有队伍借助xgboost在比赛中夺得第一。

为了方便大家使用，陈天奇将xgboost封装成了Python库。我有幸和他合作，制作了xgboost工具的R语言接口，并将其提交到了CRAN上。也有用户将其封装成了julia库。python和R接口的功能一直在不断更新，大家可以通过下文了解大致的功能，然后选择自己最熟悉的语言进行学习。

（非本博客主，详细可见参考文献）

————————————————————————————————————————————

二、优势、性价比

大致其有三个优点：高效、准确度、模型的交互性。

1、高效

xgboost借助OpenMP，能自动利用单机CPU的多核进行并行计算
Mac上的Clang对OpenMP的支持较差，所以默认情况下只能单核运行
xgboost自定义了一个数据矩阵类DMatrix，会在训练开始时进行一遍预处理，从而提高之后每次迭代的效率

它类似于梯度上升框架，但是更加高效。它兼具线性模型求解器和树学习算法。因此，它快速的秘诀在于算法在单机上也可以并行计算的能力。这使得xgboost至少比现有的梯度上升实现有至少10倍的提升。它提供多种目标函数，包括回归，分类和排序。

2、准确性

准确度提升的主要原因在于，xgboost的模型和传统的GBDT相比加入了对于模型复杂度的控制以及后期的剪枝处理，使得学习出来的模型更加不容易过拟合。

由于它在预测性能上的强大但是相对缓慢的实现，"xgboost" 成为很多比赛的理想选择。它还有做交叉验证和发现关键变量的额外功能。在优化模型时，这个算法还有非常多的参数需要调整。

3、模型的交互性

能够求出目标函数的梯度和Hessian矩阵，用户就可以自定义训练模型时的目标函数
允许用户在交叉验证时自定义误差衡量方法，例如回归中使用RMSE还是RMSLE，分类中使用AUC，分类错误率或是F1-score。甚至是在希格斯子比赛中的“奇葩”衡量标准AMS
交叉验证时可以返回模型在每一折作为预测集时的预测结果，方便构建ensemble模型。
允许用户先迭代1000次，查看此时模型的预测效果，然后继续迭代1000次，最后模型等价于一次性迭代2000次
可以知道每棵树将样本分类到哪片叶子上，facebook介绍过如何利用这个信息提高模型的表现
可以计算变量重要性并画出树状图
可以选择使用线性模型替代树模型，从而得到带L1+L2惩罚的线性回归或者logistic回归

来源：xgboost: 速度快效果好的boosting模型

————————————————————————————————————————————

三、实际案例

1、如何实现？

看到在Python和R上都有自己的package。

R中直接install.packages即可。也可以从github上调用：

[html] view plain copy

yyyyyyyyyyyyyyyyyyyy

公告

R语言︱XGBoost极端梯度上升以及forecastxgb（预测）+xgboost（回归）双案例解读

应用一：XGBoost用来做预测

一、XGBoost来历

二、优势、性价比

1、高效

2、准确性

3、模型的交互性

三、实际案例

1、如何实现？

2、one-hot encode 独热编码——独有的数据结构

3、XGBoost数之不尽的参数

一般参数

辅助参数

线性上升具体参数

任务参数

4、具体案例——官方案例 discoverYourData

应用一：XGBoost用来做预测

参考文献

xgboost: 速度快效果好的boosting模型

[译]快速上手：在R中使用XGBoost算法

延伸一：来看看LightGBM和XGboosting的差异：