xgboost

来源：http://blog.csdn.net/han_xiaoyang/article/details/52665396

xgboost实战：http://www.jianshu.com/p/5709fa18cdb4

XGBoost算法可以给预测模型带来能力的提升。当我对它的表现有更多了解的时候，当我对它的高准确率背后的原理有更多了解的时候，我发现它具有很多优势：

XGBoost可以实现并行处理，相比GBM有了速度的飞跃。
不过，众所周知，Boosting算法是顺序处理的，它怎么可能并行呢？每一课树的构造都依赖于前一棵树，那具体是什么让我们能用多核处理器去构造一个树呢？我希望你理解了这句话的意思。如果你希望了解更多，点击这个链接。
XGBoost 也支持Hadoop实现。

XGBoost内置处理缺失值的规则。
用户需要提供一个和其它样本不同的值，然后把它作为一个参数传进去，以此来作为缺失值的取值。XGBoost在不同节点遇到缺失值时采用不同的处理方法，并且会学习未来遇到缺失值时的处理方法。

当分裂时遇到一个负损失时，GBM会停止分裂。因此GBM实际上是一个贪心算法。
XGBoost会一直分裂到指定的最大深度(max_depth)，然后回过头来剪枝。如果某个节点之后不再有正值，它会去除这个分裂。
这种做法的优点，当一个负损失（如-2）后面有个正损失（如+10）的时候，就显现出来了。GBM会在-2处停下来，因为它遇到了一个负值。但是XGBoost会继续分裂，然后发现这两个分裂综合起来会得到+8，因此会保留这两个分裂。

缺失值会被分到左子树和右子树分别计算损失，选择较优的那一个，如果训练中没有数据缺失，

预测时出现了数据缺失，那么默认被分类到右子树。

posted @ 2017-02-17 18:16 simple_wxl 阅读(1025) 评论(0) 编辑收藏举报

刷新页面返回顶部