#Header1_HeaderTitle{ font-size:50px }

随机森林

随机森林(Random Forest,简称RF)

森林是有树构建的,随机森林是由多个决策树构建的。

如何随机?

  1. 数据的随机性化
  2. 待选特征的随机化

流程:

  1. 采取有放回的抽样方式构建子数据集,保证不同子数据集之间的数量级一样

  2. 利用子数据集构建子决策树,每个子决策树输出一个结果

  3. 统计子决策树的投票结果,得到最终分类就是随机森林的输出结果

2. 待选特征的随机化(k的引入

  a. 子树从所有的待选特征中随机选取一定的特征。

  b. 在选取的特征(k个特征)中选取最优的特征。

 

假如当前所有特征为d个,传统决策树是从d个选一个最优特征;而随机森林里的子树是从d个中随机选取k个,在从k个中选一个最优特征。

当k = d时,子树就变成了传统决策树;

当k = 1时,子树就随机选择一个特征进行划分。

推荐值:

随机森林 开发流程

收集数据:任何方法
准备数据:转换样本集
分析数据:任何方法
训练算法:通过数据随机化和特征随机化,进行多实例的分类评估
测试算法:计算错误率
使用算法:输入样本数据,然后运行 随机森林 算法判断输入数据分类属于哪个分类,最后对计算出的分类执行后续处理

 

 

posted @ 2019-03-22 14:35  墨麟非攻  阅读(334)  评论(0编辑  收藏  举报