Bagging算法:
将训练数据集进行N次Bootstrap采样得到N个训练数据子集,对每个子集使用相同的算法分别建立决策树,最终的分类(或回归)结果是N个决策树的结果的多数投票(或平均)。
其中,Bootstrap即为有放回的采样,利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布之新样本。
随机森林:
随机森林是基于Bagging策略的修改算法,样本的选取采用Bootstrap采样,而属性集合也采用Bootstrap采样(不同之处)。
传统决策树在选择划分属性时是在当前结点的属性集合中选择一个最优属性;而在RF中,对每个样本构架决策树时,其每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分.。
作者:禅在心中
出处:http://www.cnblogs.com/pinking/
本文版权归作者和博客园共有,欢迎批评指正及转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。