机器学习实战笔记二决策树

决策树，设计到信息论知识，信息熵，信息增益率等概念

ID3算法、C4.5算法

决策树进程被用来来处理分类问题，最近也常用的数据挖掘算法

有点：计算复杂度不高，输出结果易于理解，对中间值缺失不敏感，可以处理不相关的特征数据

缺点：可能会产生过度匹配问题

适用数据类型：数值型和标称型

在机器学习中的决策树，首先要划分数据，但是一般数据中有很多个特征，从哪个特征开始分才是好的呢？

根据信息论知识，期望信息越小，信息增益越大，从而纯度越高。

ID3算法的核心思想就是以增益度量属性选择，选择划分后的信息增益。采用自顶向下的贪婪的搜索遍历可能的决策树空间。

所以，ID3的思想便是：

自顶向下的贪婪搜索遍历可能的决策树空间构造决策树(此方法是ID3算法和C4.5算法的基础)；
从“哪一个属性将在树的根节点被测试”开始；
使用统计测试来确定每一个实例属性单独分类训练样例的能力，分类能力最好的属性作为树的根结点测试(如何定义或者评判一个属性是分类能力最好的呢？这便是下文将要介绍的信息增益，or 信息增益率)。
然后为根结点属性的每个可能值产生一个分支，并把训练样例排列到适当的分支（也就是说，样例的该属性值对应的分支）之下。
重复这个过程，用每个分支结点关联的训练样例来选取在该点被测试的最佳属性。

这形成了对合格决策树的贪婪搜索，也就是算法从不回溯重新考虑以前的选择。

ID3算法使用的是信息熵

C4.5算法使用的是增益比率gain ratio。增益度量Gain(S,A)和分裂信息度量Splitlnformation(S,A)

决策树使用于特征提取值离散情况，连续的特征一般也要处理成离散的。

posted on 2014-05-04 14:12 shouchengcheng 阅读(482) 评论(0) 编辑收藏举报