摘要: Random Forests (随机森林)随机森林的思想很简单,百度百科上介绍的随机森林算法比较好理解。在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 阅读全文
posted @ 2012-05-10 16:19 Liqizhou 阅读(14140) 评论(9) 推荐(1) 编辑
摘要: bagging,boosting,adboost,random forests都属于集成学习范畴.在boosting算法产生之前,还出现过两种比较重要的算法,即boostrapping方法和bagging方法。首先介绍一下这二个算法思路:从整体样本集合中,抽样n* < N个样本 针对抽样的集合训练分类器Ci ,抽样的方法有很多,例如放回抽样,不放回抽样等.对于预测样本, 众多分类器进行投票,最终的结果是分类器投票的优胜结果.以上就是bagging的主要思想.但是,上述这两种方法,都只是将分类器进行简单的组合,实际上,并没有发挥出分类器组合的威力来。到1989年,Yoav Freund与 阅读全文
posted @ 2012-05-10 13:53 Liqizhou 阅读(9101) 评论(0) 推荐(0) 编辑
摘要: 对fuzzykMeans算法进行理论分析,并讲述了分布式计算mahout的实现。 阅读全文
posted @ 2012-05-10 09:15 Liqizhou 阅读(4279) 评论(0) 推荐(0) 编辑