GBDT的基本原理

这里以二元分类为例子，给出最基本原理的解释

GBDT 是多棵树的输出预测值的累加

GBDT的树都是回归树而不是分类树

分类树

分裂的时候选取使得误差下降最多的分裂

计算的技巧

最终分裂收益按照下面的方式计算，注意圆圈内的部分是固定值

GBDT 二分类

GBDT在实现中可以完全复用上面的计算方法框架，只是我们的优化的目标函数不同。

这里使用的是指数误差函数，不管是预测正确还是错误误差值都存在，但是正确的预测会使得误差值小于错误的预测参考

AdaBoost and the Super Bowl of Classiﬁers

A Tutorial Introduction to Adaptive Boosting

关于常用误差函数参考 http://www.cnblogs.com/rocketfan/p/4083821.html

参考 Greedy Functon Approximation:A Gradient Boosting Machine

4.4节关于二分类情况误差函数的设计

这里其实和上面给出的一样，只是增加了 log(1 +, 另外多了一个2,2yF), 参考前面的LossFunction http://www.cnblogs.com/rocketfan/p/4083821.html

的推导，其实这个应该算作LogLoss或者说是logistic regression, cross entropy error,也就是从probablity出发的logloss推导到output F(x)的表示就是上面的

式子，而它看上去刚好就是一个指数误差函数。

严格意义上说是LogLoss不是指数误差不过LogLoss和指数误差看上去比较相似。

这个F值其实就是逻辑回归的思路，类似语音语言处理一书27页解释，线性加权的值（output)用来预测 p(true)和p(false)的比例的log值（回归值是实数范围取值不适合预测0-1，做了一个转换)，越是接近true，那么F(x)越接近+无穷(对应最大可能性判断true)， p(false)越大那么越接近-无穷(对应最大可能性判断false)