第七课随机森林

1、算法概述

　　随机森林是一种集成学习方法，其理论基础是决策树。

　　随机森林由随机+森林两个词组成，这两个词非常精确的描述了随机森林算法的本质，随机说明了算法具有一定的随机性，体现在算法在选取数据集时，会随机从行和列两个方向筛选出子样本，比如图1和图2显示了随机森林两棵子树A和B所选取的数据集是不同的，子树A选取了Survived、Sex、Parch、Cabin、Fare五个特征，以及若干行(每行表示一个样本)，子树B选取了Passenger、Sex、Cabin、Embarked、Fare五个特征，以及若干和子数A不同的行(样本)，子树A和子树B选取的行和列有部分重叠，又有些不重叠的部分，这就保证了子树A和子树B大体是相同的，但又能学到不同的测重点，增加了模型的多样性和泛化能力，这就是算法随机性的内涵; 而森林更好理解，表示算法由很多很多棵子树构成，随机+森林合并起来，就将随机森林算法的核心表现的淋漓尽致。

图1子决策树A随机选取的数据集(黄色背景表示被选中)

图2子决策树B随机选取的数据集(黄色背景表示被选中)

2、算法原理

　　将一棵完整的、较复杂的决策树，阉割为多棵弱一点的子决策树，对于分类任务，在推理时，每一棵子决策树都会产生一个推理结果，随机森林算法通过投票机制(Voting)，统计哪种推理结果出现次数多，就将该推理结果作为随机森林算法的最终结果输出，而对于回归任务，其训练和推理过程和分类任务基本一致，不同的是在确定推理结果时，其采用的是计算所有子决策树推理结果的平均值，而不是通过投票选出，图3描述了算法的原理及大致流程。