摘要: 信息增益率=信息增益/自身熵值 三种方法对比: ID3的缺点,倾向于选择水平数量较多的变量,可能导致训练得到一个庞大且深度浅的树;另外输入变量必须是分类变量(连续变量必须离散化);最后无法处理空值。 C4.5选择了信息增益率替代信息增益。 CART以基尼系数替代熵;最小化不纯度而不是最大化信息增益。 阅读全文
posted @ 2018-05-06 20:15 耐烦不急 阅读(751) 评论(0) 推荐(0) 编辑