机器学习之——决策树信息增益比计算[程序+例题]

0 前言

根据信息增益(跳转)相关知识，得出：

特征outlook对数据集D的信息增益g(D,outlook)就等同于g(play,outlook)，这里play是最终分类的属性。
先计算分子：g(play,outlook)，有如下计算过程：
H(play)=-(5/14)log2(5/14)-(9/14)log2(9/14)=0.9403
H(play|outlook)=(4.0/14)* 0.0000+(5.0/14)* 0.9710+(5.0/14)* 0.9710=0.6935
g(play,outlook)=H(play)-H(play|outlook)=0.9403-0.6935=0.2467
H(play)的计算方法请参考：信息熵。
H(play|outlook)的计算方法请参考：条件熵。
根据分母HA(D)的公式，不难看出其就是某个随机变量D的信息熵。
故有HA(D)等同于H(A)，即随机变量A的信息熵，在本例题等同于H(outlook)。
计算分母：H(outlook)=-(4/14)log2(4/14)-(5/14)log2(5/14)-(5/14)log2(5/14)=1.5774
计算gR(play,outlook)。
根据公式gR(play,outlook)=g(play,outlook) / H(outlook) = 0.2467 / 1.5774=0.1564

计算分子g(play,temperature)。
H(play)=-(5/14)log2(5/14)-(9/14)log2(9/14)=0.9403
H(play|temperature)=(4.0/14)* 0.8113+(4.0/14)* 1.0000+(6.0/14)* 0.9183=0.9111
g(play,temperature)=H(play)-H(play|temperature)=0.9403-0.9111=0.0292
计算分母H(temperature)。
H(temperature)=-(4/14)log2(4/14)-(4/14)log2(4/14)-(6/14)log2(6/14)=1.5567
计算gR(play,temperature)。
gR(play,temperature)=g(play,temperature) / H(temperature)=0.0292/1.5567=0.0188

如有错误请指正，禁止商用。

posted @ 2024-09-02 21:26 hello_nullptr 阅读(560) 评论(0) 收藏举报

刷新页面返回顶部