决策树中的J48算法分析

J48原理：本来名称为C4.8，由于是Java实现的算法，再加上C4.8为商业收费算法。其实J48是自上而下的，递归的分治策略，选择某个属性放置在根节点，为每个可能的属性值产生一个分支，将实例分成多个子集，每个子集对应一个根节点的分支，然后在每个分支上递归地重复这个过程。当所有实例有相同的分类时，停止。

问题是如何:如恶化选择根节点属性，建立分支呢？

例如：weather.nominal.arff

我们希望得到的是纯分裂，即分裂为纯节点，希望找到一个属性，它的一个节点全是yes，一个节点全是no，这是最好的情况，因为如果是混合节点则需要再次分裂

通过量化来确定能产生最纯子节点的属性---计算纯度（目标是得到最小的决策树）。而自上而下的树归纳法用到了一些启发式方法---产生纯节点的启发法是以信息论为基础的，即信息熵，以bits测量信息。

信息增益=分裂前分布的信息熵-分裂后分布的信息熵，选择信息增益最大的属性。

计算这四个属性的信息增益，如下图：

经过计算得到outlook、windy、humidity、temperature的信息增益分别为0.247bits、0.048bits、0.152bits、0.029bits，所以选择outlook为根节点。

继续分裂....

使用J48构建决策树如图：

计算举例
分裂前：Info(outlook)=entropy(outlook)=-9/14*lg(9/14)-5/14*lg(5/14)=0.940286

分裂后：Inf0_a(outlook)=5/14*Info(D1)+4/14*Info(D2)+5/14*Info(D3)=0.693535

Info(D1)=-2/5*lg(2/5)-3/5*lg(3/5)=0.9709490 , Info(D2)=0

Info(D3)=-3/5*lg(3/5)-2/5*lg(2/5)

Gain(outlook)=Info(outlook)-Inf0_a(outlook)=0.247bits

提示，目前介绍不完整还有一些提升准确性的概念方法比如gain raito(增益比率)

posted @ 2017-07-25 17:24 张秀杰阅读(6655) 评论(1) 收藏举报

刷新页面返回顶部