决策树分类算法

决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新集进行预测。在其生成过程中,分割时属性选择度量指标是关键。通过属性选择度量,选择出最好的将样本分类的属性。
 
常ç¨æ°æ®ææç®æ³ä»å¥é¨å°ç²¾é 第å­ç« <wbr> å³ç­æ <wbr>åç±»ç®æ³æ¦è¿°
 
 
决策树分类算法,包括ID3算法、C4.5算法和CART算法。都属于贪婪算法,自顶向下以递归的方式构造决策树。
 
 

ID3算法实例分析

常用数据挖掘算法从入门到精通 第七章 ID3决策树分类算法

  • 第1步计算决策属性的熵——经验熵

常用数据挖掘算法从入门到精通 第七章 ID3决策树分类算法

  • 第2步计算条件属性的熵——条件经验熵

  • 2-1步计算年龄的条件熵和信息增益

常用数据挖掘算法从入门到精通 第七章 ID3决策树分类算法

  • 2-2步计算收入的条件熵和信息增益

常用数据挖掘算法从入门到精通 第七章 ID3决策树分类算法

  • 2-3步计算学生的条件熵和信息增益

常用数据挖掘算法从入门到精通 第七章 ID3决策树分类算法

  • 2-4步计算信誉的条件熵和信息增益

常用数据挖掘算法从入门到精通 第七章 ID3决策树分类算法

  • 选择节点 :选择信息增益最大的属性

常用数据挖掘算法从入门到精通 第七章 ID3决策树分类算法

常用数据挖掘算法从入门到精通 第七章 ID3决策树分类算法

继续重复以上步骤,选择下一个属性继续构造决策树。

 

 

C4.5算法实例分析

对毕业生的就业信息进行分析,寻找可能影响毕业生就业的因素。

常用数据挖掘算法从入门到精通 第八章 C4.5决策树分类算法

  • 第1步,计算决策属性的经验熵(训练集的全部信息量)

entropy(就业情况)=entropy(14,8)= -14/22*log2(14/22) - 8/22*log2(8/22) =0.945660

  • 第2步,计算每个属性的信息增益,以属性“性别”为例

entropy(男)=entropy(10,7)= -10/17*log2(10/17)- 7/17*log2(7/17) =0.977417

entropy(女)=entropy(4,1)= -4/5*log2(4/5)- 1/5*log2(1/5) =0.721928

因此,“性别”的条件熵为:entropy(性别)=17/22*entropy(男)+5/22*entropy(女) =0.919351

因此,“性别”的信息增益为:Gain(性别)=entropy(就业情况) - entropy(性别) = 0.026308

  • 第3步,计算样本在“性别”属性上的分裂信息

split_info(性别)= -17/22*log2(17/22) - 5/22*log2(5/22) =0.773226

  • 第4步,计算样本在“性别”属性上的信息增益比

gain_ratio(性别)= Gain(性别)/split_info(性别) =0.026308/0.773226=0.034023

  • 运用同样的方法计算样本在其他属性上的信息增益比

gain_ratio(性别)=0.034023;

gain_ratio(学生干部)= 0.411714;

gain_ratio(综合成绩)=0.088391;

gain_ratio(毕业论文)= 0.101671

  • 第5步,选择分类属性

由上述计算结果可知,“学生干部”属性具有最大的信息增益比,取“学生干部”为根属性,引出一个分支,样本按此划分。对引出的每一个分支再用此分类方法进行分类,再引出分支,最后所构造出的决策树如下图所示。

常用数据挖掘算法从入门到精通 第八章 C4.5决策树分类算法

 

 

CART算法实例分析(待添加)

 

参考:

 
 
 
posted @ 2019-10-23 09:12  数之美  阅读(4135)  评论(1编辑  收藏  举报