决策树算法

三种停止条件

当前结点包含的样本全属于同一类别，无需划分
当前属性集为空，或是所有样本在所有属性上的取值相同，无法划分
当前结点包含的样本集合为空，不能划分

决策树总体流程

核心数学概念：熵

集合“纯度”，熵值越小，纯度越高（标签越一致）

怎么寻找最优划分属性？

信息增益

本身是对离散型数据来切分的，

假设数据取值特别多，比如order_id，它会把每一个order划分到一个分支里，但这样没有意义。可以理解为容易过拟合。

改进：信息增益率（信息增益的改进） gain ratio C4.5

posted @ 2019-09-17 20:06 萝莉巴索小布丁阅读(139) 评论(0) 收藏举报

刷新页面返回顶部