统计学习方法笔记 -- Boosting方法

AdaBoost算法

基本思想是，对于一个复杂的问题，单独用一个分类算法判断比较困难，那么我们就用一组分类器来进行综合判断，得到结果，“三个臭皮匠顶一个诸葛亮”

专业的说法，

强可学习（strongly learnable），存在一个多项式算法可以学习，并且准确率很高
弱可学习（weakly learnable），存在一个多项式算法可以学习，但准确率略高于随机猜测

并且可以证明强可学习和弱可学习是等价的

那么发现一个弱可学习算法是很容易的，如果将弱可学习算法boosting到强可学习算法？

AdaBoost就是这样的算法，通过反复学习，得到一组弱分类器，通过组合这些弱分类器得到强分类器

问题就是如果得到一组弱分类器？

当然你可以用不同的分类算法来训练
也可以用不同的训练集，比如bagging，对训练集进行m次随机抽样，得到m个新的训练集

AdaBoost采用的方法是，用相同的算法和训练集，但改变每个训练样本的weight，因为在求解分类器时的目标函数是，加权误差最小，所以不同的权值会得到不同的分类器参数
具体的规则，是每轮分类后，增大分错的样本的权值，减小分对样本的权值，所有样本权值和为1
这样下一轮分类器求解，就会更关注上一轮分错的这样样本点，达到分而治之的目的

需要注意，可以想到，这个算法对离群值比较敏感，容易overfitting

并且每个弱分类器也有个weight，代表该分类器的误差率，最终用加权多数表决的方式来得到最终结果

具体算法，

对于训练集