摘要: 集成学习(aka combination/aggregation)就是构造若干模型并用它们的(加权预测/投票)值用于对新样本的预测。类似于多个决策者进行同一个决策。通常来说集成的效果要好于单个模型,当特征,数据,单个模型做到瓶颈时,多模型带来的提升很明显。因此集成学习广泛用于竞赛和实际应用中。其实很多本身就很优秀的模型就是集成了很多弱的模型,比如boosting系(adaboost),gradient boosting系(GBDT),random decision系(Random Forest)。Modular system 类似于ensemble learning,两者主要区别是前者单个分类 阅读全文
posted @ 2013-06-04 09:13 renly2013 阅读(650) 评论(0) 推荐(0) 编辑
摘要: 原题目叫做The perception and large margin classifiers,其实探讨的是在线学习。这里将题目换了换。以前讨论的都是批量学习(batch learning),就是给了一堆样例后,在样例上学习出假设函数h。而在线学习就是要根据新来的样例,边学习,边给出结果。 假设样例按照到来的先后顺序依次定义为。X为样本特征,y为类别标签。我们的任务是到来一个样例x,给出其类别结果y的预测值,之后我们会看到y的真实值,然后根据真实值来重新调整模型参数,整个过程是重复迭代的过程,直到所有的样例完成。这么看来,我们也可以将原来用于批量学习的样例拿来作为在线学习的样例。在在线学习中 阅读全文
posted @ 2013-06-04 09:11 renly2013 阅读(249) 评论(0) 推荐(0) 编辑
摘要: bagging,boosting,adboost,random forests都属于集成学习范畴.在boosting算法产生之前,还出现过两种比较重要的算法,即boostrapping方法和bagging方法。首先介绍一下这二个算法思路:从整体样本集合中,抽样n*<N个样本 针对抽样的集合训练分类器Ci,抽样的方法有很多,例如放回抽样,不放回抽样等.对于预测样本, 众多分类器进行投票,最终的结果是分类器投票的优胜结果.以上就是bagging的主要思想.但是,上述这两种方法,都只是将分类器进行简单的组合,实际上,并没有发挥出分类器组合的威力来。到1989年,Yoav Freund与 Rob 阅读全文
posted @ 2013-06-04 09:09 renly2013 阅读(413) 评论(0) 推荐(0) 编辑
摘要: Adaboost在学习AdaBoosting和online Boosting, 最好有bagging和boosting基础,这样看起来比较会比较顺。有空再补上。AdaBoost 算法的主要思想之一就是在训练集上维护一套权重分布,初始化时 ,Adaboost 为训练集的每个训练例指定相同的权重 1/m。接着调用弱学习算法进行迭代学习。每次迭代后更新训练集上不同样本的权值,对训练失败的样本赋以较大的权重,也就是让学习算法在后续的学习过程中集中对比较难的训练例进行学习首先给定一个弱学习算法和训练集 ( x1 , y1 ), ( x2 , y2 ),..., ( xN , y N ) ,xi ∈ X 阅读全文
posted @ 2013-06-04 09:07 renly2013 阅读(297) 评论(0) 推荐(0) 编辑