随机森林的Dtree是强分类器，而ABDT、GBDT的决策树是弱分类器。
ABDT GBDT的本质区别在于：损失函数不同，ABDT的损失函数是指数函数，GBDT做回归的损失函数是平方损失。min(eita) min（h）sigma n = 1,...,N err(sigma tao = 1,..., t - 1 alpha tao * g tao xn + eita h(xn), yn)
GBDT对弱分类器的要求是足够简单，并且是低方差variance和高偏差bias的，训练过程是不断降低偏差来提高精度。(高偏差，欠拟合)，弱分类器一般选择cart，深度不会很深。
GBDT的GB体现在：让损失函数沿着梯度下降的方向，gbdt每轮迭代的时候，都回去拟合损失函数在当前模型下的负梯度。这样每轮训练的时候，能够让损失函数尽快减小。

Adaptive Boosted Decision Tree

由Random Forest引入Decision Tree：

Random Forest就是bagging + DTree(加上Random特征的操作）

那么很容易延伸到Ada Boost DTree。

但是有一个需要注意的问题就是我们每次喂给Dtree的资料不在是权值都相同的，

而是有一个权重u，为了不改变原始的DTee算法，这里需要特殊的处理一下。

DTree搭配Ada Boost的话，有权重，我们怎么让DTree知道有权重的信息呢？

当然一种方法是找到Ein,然后看看哪里可以加入权重。

但是Dtree一般还加入了许多特别的Tricks，所以摊开来看Ein，可能比较麻烦。

所以这里把原来的演算法当做黑盒子，对输入的资料做一些手脚，以达到Weight的效果。

所以可能根据得到的权重，首先做一个sampling，得到一组新的资料，资料里每种的比例可能就和权重差不多，

这样就包含了权重的信息。

AdaBoost的时候，最后每个g有一个权重，线性组合得到最后的G。但是在ABDT中存在一个问题：

如果是完全资料下的一课完全长成的数，得到的权重将会是无穷大，就没有了融合的效果。

解决办法：不要所有资料（计算alpha系数的时候是在所有资料上计算），不要完全长成。

我们需要弱一点点的树，那么怎样样是最弱的树呢？一层高。其实这就是之前AdaBoost讲过的Adaboost Decision Stump。

所以Adaboost Decision Stump就是AdaBoost DTree的一个特殊的例子。但Decision Stump很简单，一般就不会去做sampling，而是把权重直接丢到Ein系数中去。

Optimization View Of AdaBoost

之前讨论AdaBoost的时候，我们得到，每一轮根据训练的表现去更新不同的训练资料的权重。

其中alpha(t)为最后融合时候g的系数：alpha = ln(方块t)

那么，初始化为1/N，N轮迭代之后我们可以得到最后的一个系数如下：

接下来看看voting score里面有什么东西

g看为特征转换，alpha看为转换后的特征的权重，那么g * alpha就是margin

所以我们就希望voting score越大越好。也就是每个点的权重越小越好

AdaBoost有一个性质，每一轮所有点的权重加起来，这个和会越来越小。

这个值越来越小，就代表Adaboost尽量让每一个点的margin越来越大。

在AdaBoost里面，想办法让最后的权重组合小。就可以把它定义为一个损失ERR（ADA）

下面证明AdaBoost真的能够做得好么？

之前的梯度下降是找一个Vec作为一个方向，现在我们的梯度下降是找一个函数。

梯度下降的话：就是在我当前的这个点，我会已经有一个值了，然后我会需要往梯度下降的方向走一点点

现在我们就希望找到一个好的h，那么然后呢？

所以说，我们要找到一个好的h，就希望后边那项较小，也就是Ein(h)小，而这正是AdaBoost的做法，找g(t)的时候，是找Ein小的。

但如果像之前的gradient的话，走的步长太小，可能效率太低，我们能不能走的大步一点呢？

那么，接下来就对eita做最佳化。

求得h之后带回Err(ADA)的表达式可以得到:

分正误分类带入得到：

好了，接下来就是对eita的最佳化的一个过程了，很简单，单变量求导就可以了。

好了，这就全对上了。

AdaBoost做的是首先根据Ein最小找到一个g，然后最后每个g的系数就是alpha，现在我们证明了，这种操作其实就是在做某一个最佳化的过程。

steepest gradient descent（每次走一大步）。

Gradient Boosting

之前讨论了Adaboost实际上使用了Gradient求得一个最佳化的结果，现在对这进行扩充，变化Err function。

现在假设这个Err函数是平方误差

那么现在的意思就是我现在已经找到alpha g，在每一个点上加权算的一个分数sn，现在从sn出发，我需要找一个方向，在那个方向上走一步，让最小

那么我现在就是需要第二项最小化。h的方向和sn - yn 的方向相反，大小无限大，这能导致最小化，但这明显不对啊？

但是由于taylor近似的时候，是需要对h的大小做限制的。那么怎么限制呢？硬性加入条件后会变成一个有条件的最优化问题，

所以这里直接加入一个惩罚项。

所以我需要找到一个好的h，就是h和余数（y - s）(想要做到的y 已经做到的s)的差尽量小。

所以AdaBoost是让base learner 找一个好的Ein小的g

gradientBoost是让base learner 根据余数找一个好的g

好了，找到一个好的g之后，我们继续寻找eita，这可以转化为一个线性回归问题

GBDT

好了，现在可以拿出我们的GBDT算法了

1.演算法和AdaBoost一样，跑了T轮之后，会得到一堆的g和alpha（用来做Regression,所以不用起sign，就是把g和alpha加权输出去）

2.每一轮做什么事情呢？

　每一轮先解一个Regression问题，使用一个baseLearner来解，比如DTree。（第一轮初始化为0）

　然后得到g后，用g转化，然后求解一个线性回归问题

3.T轮之后就ok

GBDT就是ABDT的一个Regression版本。

Summary of Aggregation Models

Blending

Learning

Aggregation of Aggregation

不同的Aggregation追求的事情可能不一样，有一些在追求克服underfitting，有的在追求克服overfitting

posted on 2017-03-05 11:46 futurehau 阅读(449) 评论(0) 编辑收藏举报

刷新页面返回顶部

导航

Adaptive Boosted Decision Tree

Optimization View Of AdaBoost

Gradient Boosting

GBDT

Summary of Aggregation Models