随笔 - 402  文章 - 1 评论 - 20 阅读 - 113万
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

1、J48原理

  基于从上到下的策略,递归的分治策略,选择某个属性放置在根节点,为每个可能的属性值产生一个分支,将实例分成多个子集,每个子集对应一个根节点的分支,然后在每个分支上递归地重复这个过程。当所有实例有相同的分类时,停止。

  问题:如何选择根节点属性,建立分支呢?

  例如:weather.arff

  我们希望得到的是纯分裂,即分裂为纯节点,希望找到一个属性,它的一个节点全是yes,一个节点全是no,或许第三个节点又全是yes,这是最好的情况,因为如果是混合节点则需要再次分裂。

  通过量化来确定能产生最纯子节点的属性---计算纯度(目标是得到最小的决策树)。而自上而下的树归纳法用到了一些启发式方法---产生纯节点的启发法是以信息论为基础的,即信息熵,以bits测量信息

  信息增益=分裂前分布的信息熵-分裂后分布的信息熵,选择信息增益最大的属性

  (分裂前分部信息熵)

  (分布后分布信息熵)

  (属性A的信息增益)

  计算这四个属性的信息增益,如下图:

  

  经过计算得到outlook、windy、humidity、temperature的信息增益分别为0.247bits、0.048bits、0.152bits、0.029bits,所以选择outlook为根节点。

  

  ........

2、举例

 

  (1)所给数据如下图  

       

(2)选择根节点

  先求age的信息增益

  

  分裂前分布的信息熵:

  分裂后分布的信息熵:

              

  信息增益:

              

  类似地:

            

  比较得到选择age为根节点,然后得到决策树的第一层,如下图:

  

  然后在每个分支上递归地重复这个过程,直到所有实例有相同的分类。

3、总结

  J48分类算法可信度高,建立的决策树简单易懂,并且结果非常容易理解。

 

posted on   chamie  阅读(16071)  评论(0编辑  收藏  举报
编辑推荐:
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示