如何理解C4.5算法解决了ID3算法的偏向于选择取值较多的特征问题

如何理解C4.5算法解决了ID3算法的偏向于选择取值较多的特征问题

考虑一个极端情况,某个属性(特征)的取值很多,以至于每一个取值对应的类别只有一个。这样根据$$H(D) - H(D|A)$$可以得知后面的那一项的值为0。这样得到信息增益会很大。C4.5算法加了一个惩罚项$$H_A(D) = -\sum_{i=1}^n\dfrac{|D_i|}{|D|}\log_2\dfrac{|D_i|}{|D|}$$,如果\(D_i\)越小,那么该惩罚项的值就越大。这样便解决了ID3算法的问题。

posted @ 2018-04-04 15:21  狂徒归来  阅读(1101)  评论(0编辑  收藏  举报