随机森林

一。简介

随机森林,即用随机的方式建立一个森林,森林是由很多决策树组成。每一个决策树之间都是没有关联的。在得到森林之后,对于测试集,要让每一棵决策树分别进行一下判断该样本属于哪一类。根据哪个类被选择的多,该样本就是属于哪一类。

比喻的说法:

每一棵决策树就是一个精通于某一个窄领域的专家(因为我们从M个feature中选择m让每一棵决策树进行学习),这样在随机森林中就有了很多个精通不同领域的专家,对一个新的问题(新的输入数据),可以用不同的角度去看待它,最终由各个专家,投票得到结果。

二。采样和完全分裂

1》随机森林要对输入的数据进行行、列的随机采样。两个随机过程:

行:采用有回放的方式。假设样本为n个,采样的数量也为n个,只不过这个n个当中有重复,因此得到的采样结果不是原来全部的样本。

列:从数据的M个特征中,采样m个特征,m<<M,得到一个全部特征的子集。

2》采取完全分裂的方式对样本建立决策树。

三。优缺点

1.可以处理高维数据问题,因为不用做特征选择,特征子集是随机选择的。

2.训练完之后,可以给出哪些feature比较重要。

3.训练速度比较快.每一棵决策树之间是独立的。因此也容易做成并行化的方法。

posted @ 2017-08-27 10:16  岁月静好--lyr  阅读(170)  评论(0编辑  收藏  举报