决策树算法（Bagging与随机森林）

Bagging算法：

将训练数据集进行N次Bootstrap采样得到N个训练数据子集，对每个子集使用相同的算法分别建立决策树，最终的分类（或回归）结果是N个决策树的结果的多数投票（或平均）。

其中，Bootstrap即为有放回的采样，利用有限的样本资料经由多次重复抽样，重新建立起足以代表母体样本分布之新样本。

随机森林：

随机森林是基于Bagging策略的修改算法，样本的选取采用Bootstrap采样，而属性集合也采用Bootstrap采样（不同之处）。

传统决策树在选择划分属性时是在当前结点的属性集合中选择一个最优属性；而在RF中，对每个样本构架决策树时，其每个结点，先从该结点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分.。

posted on 2017-11-22 23:08 禅在心中阅读(1736) 评论(0) 编辑收藏举报