参考:http://blog.csdn.net/v_july_v/article/details/7577684
决策树,设计到信息论知识,信息熵,信息增益率等概念
ID3算法、C4.5算法
决策树进程被用来来处理分类问题,最近也常用的数据挖掘算法
有点:计算复杂度不高,输出结果易于理解,对中间值缺失不敏感,可以处理不相关的特征数据
缺点:可能会产生过度匹配问题
适用数据类型:数值型和标称型
在机器学习中的决策树,首先要划分数据,但是一般数据中有很多个特征,从哪个特征开始分才是好的呢?
根据信息论知识,期望信息越小,信息增益越大,从而纯度越高。
ID3算法的核心思想就是以增益度量属性选择,选择划分后的信息增益。采用自顶向下的贪婪的搜索遍历可能的决策树空间。
所以,ID3的思想便是:
- 自顶向下的贪婪搜索遍历可能的决策树空间构造决策树(此方法是ID3算法和C4.5算法的基础);
- 从“哪一个属性将在树的根节点被测试”开始;
- 使用统计测试来确定每一个实例属性单独分类训练样例的能力,分类能力最好的属性作为树的根结点测试(如何定义或者评判一个属性是分类能力最好的呢?这便是下文将要介绍的信息增益,or 信息增益率)。
- 然后为根结点属性的每个可能值产生一个分支,并把训练样例排列到适当的分支(也就是说,样例的该属性值对应的分支)之下。
- 重复这个过程,用每个分支结点关联的训练样例来选取在该点被测试的最佳属性。
这形成了对合格决策树的贪婪搜索,也就是算法从不回溯重新考虑以前的选择。
ID3算法使用的是信息熵
C4.5算法使用的是增益比率gain ratio。增益度量Gain(S,A)和分裂信息度量Splitlnformation(S,A)
决策树使用于特征提取值离散情况,连续的特征一般也要处理成离散的。