决策树算法

三种停止条件

  1. 当前结点包含的样本全属于同一类别,无需划分
  2. 当前属性集为空,或是所有样本在所有属性上的取值相同,无法划分
  3. 当前结点包含的样本集合为空,不能划分

决策树总体流程

1568708466(1)

核心数学概念:熵

集合“纯度”,熵值越小,纯度越高(标签越一致)

image

怎么寻找最优划分属性?

信息增益

本身是对离散型数据来切分的,

假设数据取值特别多,比如order_id,它会把每一个order划分到一个分支里,但这样没有意义。可以理解为容易过拟合。

改进:信息增益率(信息增益的改进) gain ratio  C4.5

posted @ 2019-09-17 20:06  萝莉巴索小布丁  阅读(132)  评论(0编辑  收藏  举报