决策树分类算法

决策树算法是一种归纳分类算法，它通过对训练集的学习，挖掘出有用的规则，用于对新集进行预测。在其生成过程中，分割时属性选择度量指标是关键。通过属性选择度量，选择出最好的将样本分类的属性。

å¸¸ç¨æ°æ®ææç®æ³ä»å¥é¨å°ç²¾é ç¬¬åç« <wbr> å³çæ <wbr>åç±»ç®æ³æ¦è¿°

决策树分类算法，包括ID3算法、C4.5算法和CART算法。都属于贪婪算法，自顶向下以递归的方式构造决策树。

ID3算法实例分析

常用数据挖掘算法从入门到精通第七章 ID3决策树分类算法

第1步计算决策属性的熵——经验熵

常用数据挖掘算法从入门到精通第七章 ID3决策树分类算法

第2步计算条件属性的熵——条件经验熵
2-1步计算年龄的条件熵和信息增益

常用数据挖掘算法从入门到精通第七章 ID3决策树分类算法

2-2步计算收入的条件熵和信息增益

常用数据挖掘算法从入门到精通第七章 ID3决策树分类算法

2-3步计算学生的条件熵和信息增益

常用数据挖掘算法从入门到精通第七章 ID3决策树分类算法

2-4步计算信誉的条件熵和信息增益

常用数据挖掘算法从入门到精通第七章 ID3决策树分类算法

选择节点：选择信息增益最大的属性

常用数据挖掘算法从入门到精通第七章 ID3决策树分类算法

继续重复以上步骤，选择下一个属性继续构造决策树。

C4.5算法实例分析

对毕业生的就业信息进行分析，寻找可能影响毕业生就业的因素。

常用数据挖掘算法从入门到精通第八章 C4.5决策树分类算法

第1步，计算决策属性的经验熵（训练集的全部信息量）

entropy(就业情况)=entropy(14，8)= -14/22*log2(14/22) - 8/22*log2(8/22) =0.945660

第2步，计算每个属性的信息增益，以属性“性别”为例

entropy(男)=entropy(10，7)= -10/17*log2(10/17)- 7/17*log2(7/17) =0.977417

entropy(女)=entropy(4，1)= -4/5*log2(4/5)- 1/5*log2(1/5) =0.721928

因此，“性别”的条件熵为：entropy(性别)=17/22*entropy(男)+5/22*entropy(女) =0.919351

因此，“性别”的信息增益为：Gain(性别)=entropy(就业情况) - entropy(性别) = 0.026308

第3步，计算样本在“性别”属性上的分裂信息

split_info(性别)= -17/22*log2(17/22) - 5/22*log2(5/22) =0.773226

第4步，计算样本在“性别”属性上的信息增益比

gain_ratio(性别)= Gain(性别)/split_info(性别) =0.026308/0.773226=0.034023

运用同样的方法计算样本在其他属性上的信息增益比

gain_ratio(性别)=0.034023；

gain_ratio(学生干部)= 0.411714；

gain_ratio(综合成绩)=0.088391；

gain_ratio(毕业论文)= 0.101671

第5步，选择分类属性

由上述计算结果可知，“学生干部”属性具有最大的信息增益比，取“学生干部”为根属性，引出一个分支，样本按此划分。对引出的每一个分支再用此分类方法进行分类，再引出分支，最后所构造出的决策树如下图所示。

常用数据挖掘算法从入门到精通第八章 C4.5决策树分类算法

CART算法实例分析(待添加)

参考：

https://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html

https://blog.csdn.net/jiaoyangwm/article/details/79525237

https://www.toutiao.com/i6456303269055562253/

https://www.toutiao.com/i6456712276182303246/

https://www.toutiao.com/i6457060197570445838/

https://www.toutiao.com/i6458158343935492621/

posted @ 2019-10-23 09:12 数之美阅读(4135) 评论(1) 编辑收藏举报

刷新页面返回顶部

数之美

think big 、think long 、think deep

决策树分类算法

ID3算法实例分析

C4.5算法实例分析

CART算法实例分析(待添加)

公告