AYE89

coding & learning

导航

【基础知识四】决策树

Posted on 2018-01-09 19:34  AYE89  阅读(185)  评论(0编辑  收藏  举报

决策树可以使用不熟悉的数据集合,并从中提取出一系列的规则(如if...else),根据数据集创建规则的过程,就是机器学习的过程。专家系统中经常使用决策树。

一、基本思想:分而治之的策略

决策树的生成是一个递归过程;

对于属性值是离散值的情况,结点生成问题转化为:从当前属性集合中选择哪种属性(作为分支结点)

 

何为“最优划分属性”?     即属性选择的依据

所选属性下,(分支结点)所包含的样本尽可能属于同一类别,通俗地说就是属性的“区分度”强,属性的“纯度”高;

 

二、划分选择

信息增益:基于“信息熵”;

典型算法:

ID3:信息增益

C4.5:增益率

CART:“基尼指数”

 

三、防止“过拟合”

剪枝:包括“预剪枝”、“后剪枝”

 

四、连续与缺失值处理