统计学习方法八:提升方法
一、集成方法:
1、什么是集成方法?
集成方法,又称元算法,是对算法的一种集成。集成方法可以有多种形式,可以使对不同算法的集成,也可以是同一算法在不同设置下的集成
2、为什么采用集成方法?
最通俗的理解,“三个臭皮匠,顶个诸葛亮”,对于分类,综合多个分类器的分类意见进行分类
3、弱分类器与强分类器
二、boosting
1、boosting是元算法中的一种
2、有何特点?
(1)所使用的多个分类器的类型是一致的
(2)每个分类器的权重不相等,权重代表的是其对应分类器在上一轮迭代中的成功度
(3)集中关注被已有分类器错分的那些数据来获得新的分类器
3、AdaBoost-Boosting的一种
AdaBoost:adaptive boosting,自适应boosting
三、AdaBoost
1、AdaBoost算法流程?
(1)训练数据集中的每个样本赋予同等权重
(2)弱分类器进行训练
(3)调整每个训练样本的权重:分类错误的样本权重增大,分类正确的样本权重减小
调整每个分类器的权重:错误率大则权重小
(4)重复(2)-(3),直到错误率降为0或者弱分类器的数目达到用户的指定值
2、弱分类器
任何一个分类算法都可以作为弱分类器,但是简单分类器的效果更好,本文采用单层决策树
单层决策树:仅仅基于单个特征进行决策,只有一次分裂过程
四、实现