机器学习之集成学习

1. 集成学习:

AdaBoost:

运行过程:训练数据中的每一个样本,并赋一个权重,这些权重值构成向量D,已开始这些权重值一样。

第一次训练完,得到一个弱分类器,计算该分类器的错误率,然后调整每个样本的权重值,对同一个训练数据进行第二次训练得到第二个分类器。(第一次分对的样本权重减小,分错的权重提高。)并且AdaBoost为每个分类器都分配了一个权重值alpha。

这样,样本权重D和alpha不断训练和调整,知道错误率为0或者分类器的数目达到要求为止。

bagging:从原始数据集选择S次后得到S个新的数据集,创建好S个数据集以后,应用某个学习算法分别作用于每个数据集得到了S个分类器。结果产生于:简单投票

boosting:集中关注在已有分类器中错分的数据来获得新的分类器,过程详看Adaboost。分类结果产生于:基于所有分类器的加权求和结果得到的。

集成学习:集合多个基学习器(弱学习器)。(自助采样方法)

集成学习的方法大致可以分为两类:Boosting为代表的个体学习器之间存在强依赖关系、必须串行生成的序列化方法;再就是以Bagging和随机森林为代表的个体学习器间不存在强依赖关系,可以同时生成的并行化方法。

2. 分类性能指标:

正确率:分类正确的正例占在预测结果中的为正例(预测中有一部分是真实正例和伪正例)的比例

召回率:给出的是分类正确的正例占所有真实正例(真实的标签正例)的比例

ROC曲线:度量分类中的非均衡型的工具。假阳率(x)和真阳率(y)。ROC曲线中有两条线:实线,虚线:随机猜测的结果曲线

AUC:曲线下面积:分类器的平均性能值,一个完美分类器的AUC为1.0, 而随机猜测的AUC为0.5

3. 偏差和方差:

4. 随机森林:

bagging的一种扩展,RF是以决策树为基学习器构建Bagging的过程,进一步在决策树的训练过程中引入了随机属性选择。

传统的决策树是在当前节点的属性集合中选择一个最优的属性,RF中对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含k个属性的子集,在子集中选择一个最优的用做划分。

iccv会议中会有关于机器学习的paper。iccv 09

5. 结合策略:

1)结合的好处:

2)结合策略:

6. 多样性:误差-分歧分解;多样性度量的各种策略

 

posted @ 2017-09-04 22:14  张不  阅读(303)  评论(0编辑  收藏  举报