AdaBoost分类器

简介

Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据特徵,并将关键放在关键的训练数据上面。

算法基本介绍

该算法其实是一个简单的弱分类算法提升过程,这个过程通过不断的训练,可以提高对数据的分类能力。整个过程如下所示:

  1. 先通过对N个训练样本的学习得到第一个弱分类器;

  2. 将分错的样本和其他的新数据一起构成一个新的N个的训练样本,通过对这个样本的学习得到第二个弱分类器 ;

  3. 将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器;

  4. 最终经过提升的强分类器 。即某个数据被分为哪一类要通过 , ……的多数表决。

算法流程图示

     1. 给定训练样本集S,其中X和Y分别对应于正例样本和负例样本; T为训练的最大循环次数;

  2. 初始化样本权重为1/n ,即为训练样本的初始概率分布;

  3. 第一次迭代:

  (1) 训练样本的概率分布相当下,训练弱分类器:

  (2) 计算弱分类器的错误率:

  (3) 选取合适阈值,使得错误率最小

  (4) 更新样本权重:

  (5) 最终得到的强分类器。

image

posted @ 2010-12-04 14:41  pangliang  阅读(7257)  评论(1编辑  收藏  举报