如何理解C4.5算法解决了ID3算法的偏向于选择取值较多的特征问题
如何理解C4.5算法解决了ID3算法的偏向于选择取值较多的特征问题
考虑一个极端情况,某个属性(特征)的取值很多,以至于每一个取值对应的类别只有一个。这样根据$$H(D) - H(D|A)$$可以得知后面的那一项的值为0。这样得到信息增益会很大。C4.5算法加了一个惩罚项$$H_A(D) = -\sum_{i=1}^n\dfrac{|D_i|}{|D|}\log_2\dfrac{|D_i|}{|D|}$$,如果\(D_i\)越小,那么该惩罚项的值就越大。这样便解决了ID3算法的问题。
夜空中最亮的星,照亮我前行