决策树分类算法
ID3算法实例分析
-
第1步计算决策属性的熵——经验熵
-
第2步计算条件属性的熵——条件经验熵
- 2-1步计算年龄的条件熵和信息增益
-
2-2步计算收入的条件熵和信息增益
-
2-3步计算学生的条件熵和信息增益
-
2-4步计算信誉的条件熵和信息增益
-
选择节点 :选择信息增益最大的属性
继续重复以上步骤,选择下一个属性继续构造决策树。
C4.5算法实例分析
对毕业生的就业信息进行分析,寻找可能影响毕业生就业的因素。
-
第1步,计算决策属性的经验熵(训练集的全部信息量)
entropy(就业情况)=entropy(14,8)= -14/22*log2(14/22) - 8/22*log2(8/22) =0.945660
-
第2步,计算每个属性的信息增益,以属性“性别”为例
entropy(男)=entropy(10,7)= -10/17*log2(10/17)- 7/17*log2(7/17) =0.977417
entropy(女)=entropy(4,1)= -4/5*log2(4/5)- 1/5*log2(1/5) =0.721928
因此,“性别”的条件熵为:entropy(性别)=17/22*entropy(男)+5/22*entropy(女) =0.919351
因此,“性别”的信息增益为:Gain(性别)=entropy(就业情况) - entropy(性别) = 0.026308
-
第3步,计算样本在“性别”属性上的分裂信息
split_info(性别)= -17/22*log2(17/22) - 5/22*log2(5/22) =0.773226
-
第4步,计算样本在“性别”属性上的信息增益比
gain_ratio(性别)= Gain(性别)/split_info(性别) =0.026308/0.773226=0.034023
-
运用同样的方法计算样本在其他属性上的信息增益比
gain_ratio(性别)=0.034023;
gain_ratio(学生干部)= 0.411714;
gain_ratio(综合成绩)=0.088391;
gain_ratio(毕业论文)= 0.101671
-
第5步,选择分类属性
由上述计算结果可知,“学生干部”属性具有最大的信息增益比,取“学生干部”为根属性,引出一个分支,样本按此划分。对引出的每一个分支再用此分类方法进行分类,再引出分支,最后所构造出的决策树如下图所示。
CART算法实例分析(待添加)
参考: