随机森林
一。简介
随机森林,即用随机的方式建立一个森林,森林是由很多决策树组成。每一个决策树之间都是没有关联的。在得到森林之后,对于测试集,要让每一棵决策树分别进行一下判断该样本属于哪一类。根据哪个类被选择的多,该样本就是属于哪一类。
比喻的说法:
每一棵决策树就是一个精通于某一个窄领域的专家(因为我们从M个feature中选择m让每一棵决策树进行学习),这样在随机森林中就有了很多个精通不同领域的专家,对一个新的问题(新的输入数据),可以用不同的角度去看待它,最终由各个专家,投票得到结果。
二。采样和完全分裂
1》随机森林要对输入的数据进行行、列的随机采样。两个随机过程:
行:采用有回放的方式。假设样本为n个,采样的数量也为n个,只不过这个n个当中有重复,因此得到的采样结果不是原来全部的样本。
列:从数据的M个特征中,采样m个特征,m<<M,得到一个全部特征的子集。
2》采取完全分裂的方式对样本建立决策树。
三。优缺点
1.可以处理高维数据问题,因为不用做特征选择,特征子集是随机选择的。
2.训练完之后,可以给出哪些feature比较重要。
3.训练速度比较快.每一棵决策树之间是独立的。因此也容易做成并行化的方法。