随机森林

一。简介

随机森林，即用随机的方式建立一个森林，森林是由很多决策树组成。每一个决策树之间都是没有关联的。在得到森林之后，对于测试集，要让每一棵决策树分别进行一下判断该样本属于哪一类。根据哪个类被选择的多，该样本就是属于哪一类。

比喻的说法：

每一棵决策树就是一个精通于某一个窄领域的专家（因为我们从M个feature中选择m让每一棵决策树进行学习），这样在随机森林中就有了很多个精通不同领域的专家，对一个新的问题（新的输入数据），可以用不同的角度去看待它，最终由各个专家，投票得到结果。

二。采样和完全分裂

1》随机森林要对输入的数据进行行、列的随机采样。两个随机过程：

行：采用有回放的方式。假设样本为n个，采样的数量也为n个，只不过这个n个当中有重复，因此得到的采样结果不是原来全部的样本。

列：从数据的M个特征中，采样m个特征，m<<M，得到一个全部特征的子集。

2》采取完全分裂的方式对样本建立决策树。

三。优缺点

1.可以处理高维数据问题，因为不用做特征选择，特征子集是随机选择的。

2.训练完之后，可以给出哪些feature比较重要。

3.训练速度比较快.每一棵决策树之间是独立的。因此也容易做成并行化的方法。

posted @ 2017-08-27 10:16 岁月静好--lyr 阅读(188) 评论(0) 收藏举报

刷新页面返回顶部

岁月静好--lyr