机器学习经典分类算法 —— C4.5算法(附python实现代码)

理论介绍

什么是分类

  • 分类属于机器学习中监督学习的一种。模型的学习在被告知每个训练样本属于哪个类的“指导”下进行,新数据使用训练集中得到的规则进行分类。

分类的步骤




什么是决策树

决策树归纳




信息增益

相关理论基础

计算公式

ID3





注:生成的决策树有误,fair对应的应该是yes,excellent对应的应该是no

C4.5

python实现

  • GitHub地址
  • 不足之处:目前只能处理离散值,并且还没有添加从文件中读取数据集的功能。但是基本上算法的大部分都实现了,以后到了具体应用场景时可以继续调整后使用。

参考资料

  • 理论部分参考:福州大学数学与计算机科学学院苏雅茹老师数据挖掘课上使用的课件(一并上传到Github了,课件内还包括其他一些常用分类算法,例如贝叶斯算法)
  • 代码部分参考:Python实现C4.5(信息增益率)
  • 如有侵权,请联系我删除
posted @ 2019-01-29 15:42  闽A2436  阅读(4871)  评论(2编辑  收藏  举报