随机森林的一点点自己理解

  最近想学习一下机器学习方面的知识,在此做一下记录,分享一下学习的一点点收获!

参考:

  1. http://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/1976562.html
  2. http://www.cnblogs.com/tornadomeet/archive/2012/11/06/2756361.html

  学习随机森林之前,应该了解决策树的方法。决策树是一种基本的分类回归方法。他就是类似于IF~else~的思想。首先(1)对于N个样本的M个属性,我们先选择一个属性,按照该属性Mi的取值将分类问题划分为2个(或多个)子集。然后对于每一科分支子树去除Mi属性,然后对每一个子树重复(1)的过程。决策树也逐渐下降!每一科子树的属性值也越来越少。这里最终形成的树并非一颗完全树。叶子节点的高度也是不一样的!

这样,当决策树到达最低短的时候,及说明如果一个样本Yt出现的时候,先按照决策树的第一个属性值,指出他属于哪个分支!一层一层,直到叶子节点。这时候,叶子节点的类别标签就是测试样本Yt的类别。

经过决策树划分的空间最终会形成一个超空间的划分:下图的属性只有X,Y2个,而且每种属性的取值只有2种。在实际的问题中可能会很多。从这里也可以理解决策树解决的问题是属性值需要是离散的。

image

对于属性的选择顺序,可以利用信息增益的方法(http://www.autonlab.org/tutorials/infogain.html)。

随机森林(Random Forest):

    随机森林是一个最近比较火的算法,它有很多的优点:

  •     在数据集上表现良好
  •     在当前的很多数据集上,相对其他算法有着很大的优势
  •     它能够处理很高维度(feature很多)的数据,并且不用做特征选择
  •     在训练完后,它能够给出哪些feature比较重要
  •     在创建随机森林的时候,对generlization error使用的是无偏估计
  •     训练速度快
  •     在训练过程中,能够检测到feature间的互相影响
  •     容易做成并行化方法
  •     实现比较简单

随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。

 

当可以生成好决策树后,就比较容易生成随机森林了。下面是随机森林的构造过程:

 

  1. 假如有N个样本,则有放回的随机选择N个样本(每次随机选择一个样本,然后返回继续选择)。这选择好了的N个样本用来训练一个决策树,作为决策树根节点处的样本。

 

  2. 当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m << M。然后从这m个属性中采用某种策略(比如说信息增益)来选择1个属性作为该节点的分裂属性。

 

  3. 决策树形成过程中每个节点都要按照步骤2来分裂(很容易理解,如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,无须继续分裂了,这一点保证了树的高度肯定是<=M的)。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。

 

  4. 按照步骤1~3建立大量的决策树,这样就构成了随机森林了。

 

  从上面的步骤可以看出,随机森林的随机性体现在每颗数的训练样本是随机的,树中每个节点的分类属性也是随机选择的。有了这2个随机的保证,随机森林就不会产生过拟合的现象了。

 

 

 

  随机森林有2个参数需要人为控制,一个是森林中树的数量,一般建议取很大。另一个是m的大小,推荐m的值为M的均方根。

 

posted @ 2014-11-19 16:41  hitkb  阅读(2845)  评论(0编辑  收藏  举报