C4.5决策树个人笔记
决策树优点:
可处理具有不相关特征的数据、可很容易地构造出易于理解的规则,而规则通常易于解释和理解。
决策树缺点:
比如处理缺失数据时的困难、过度拟合以及忽略数据集中属性之间的相关性等。
在ID3算法完全掌握的基础上,学习C4.5算法,需要明白以下几件事:
1、C4.5如何划分数据集?——用信息增益比;
2、连续型属性如何处理?——选择划分属性时,当做离散变量;选择划分点时,用信息增益来选。
3、如何剪枝?——基于误判的剪枝和悲观剪枝,后者更加常用。
参考:
http://shiyanjun.cn/archives/428.html(C4.5算法的实现原理)
http://blog.sina.com.cn/s/blog_68ffc7a40100urn3.html(C4.5算法的实现原理)
http://www.cnblogs.com/zhangchaoyang/articles/2842490.html(有对悲观剪枝比较详细的介绍)
http://www.cnblogs.com/superhuake/archive/2012/07/25/2609124.html(有对剪枝的方法叙述性的介绍和悲观剪枝的介绍)
http://dataunion.org/5107.html(叙述性介绍几种决策树,对剪枝的方法有介绍)
http://blog.sina.com.cn/s/blog_60acd6780100djcf.html(C4.5处理连续属性,第2条可只在类别和属性值均发生变化的地方作为分割点进行计算)
http://blog.sina.com.cn/s/blog_4e4dec6c0101fdz6.html(决策树的剪枝理论介绍)
http://www.cnblogs.com/junyuhuang/p/4572408.html(决策树算法之悲观剪枝算法)
http://blog.csdn.net/o1101574955/article/details/50371499(用python实现C4.5算法,并进行悲观剪枝)
https://www.quora.com/What-are-some-good-resources-for-learning-about-decision-trees(学习决策树的好资源,英文的)