shouchengcheng
just do it

参考:http://blog.csdn.net/v_july_v/article/details/7577684

决策树,设计到信息论知识,信息熵,信息增益率等概念

ID3算法、C4.5算法

决策树进程被用来来处理分类问题,最近也常用的数据挖掘算法

有点:计算复杂度不高,输出结果易于理解,对中间值缺失不敏感,可以处理不相关的特征数据

缺点:可能会产生过度匹配问题

适用数据类型:数值型和标称型

在机器学习中的决策树,首先要划分数据,但是一般数据中有很多个特征,从哪个特征开始分才是好的呢?

根据信息论知识,期望信息越小,信息增益越大,从而纯度越高。

ID3算法的核心思想就是以增益度量属性选择,选择划分后的信息增益。采用自顶向下的贪婪的搜索遍历可能的决策树空间。

 

 所以,ID3的思想便是:

  1. 自顶向下的贪婪搜索遍历可能的决策树空间构造决策树(此方法是ID3算法和C4.5算法的基础);
  2. 从“哪一个属性将在树的根节点被测试”开始;
  3. 使用统计测试来确定每一个实例属性单独分类训练样例的能力,分类能力最好的属性作为树的根结点测试(如何定义或者评判一个属性是分类能力最好的呢?这便是下文将要介绍的信息增益,or 信息增益率)。
  4. 然后为根结点属性的每个可能值产生一个分支,并把训练样例排列到适当的分支(也就是说,样例的该属性值对应的分支)之下。
  5. 重复这个过程,用每个分支结点关联的训练样例来选取在该点被测试的最佳属性。

这形成了对合格决策树的贪婪搜索,也就是算法从不回溯重新考虑以前的选择。

ID3算法使用的是信息熵

 C4.5算法使用的是增益比率gain ratio。增益度量Gain(S,A)和分裂信息度量Splitlnformation(S,A)

决策树使用于特征提取值离散情况,连续的特征一般也要处理成离散的。

 

posted on 2014-05-04 14:12  shouchengcheng  阅读(482)  评论(0编辑  收藏  举报