决策树(decision tree)

一、定义

决策树是一种对实例进行分类的树形结构

决策树由结点和有向边组成。

结点有两种类型:内部节点表示一个特征或属性叶节点表示一个

 

二、算法

计算最优特征子函数:不同标准导致不同类型的决策树,

ID3的最优特征选择标准是信息增益,C4.5是信息增益率,CART是节点方差的大小

 

框架:

1-输入  要分类的数据集和类别标签
2-根据某种分类规则,创建特征的划分节点(计算最优特征子函数)
3-按照该特征,划分数据集
4-根据划分子函数构建新的节点
5-检验是否符合递归终止条件
6-将划分的新节点包含的数据集和类别标签作为输入,递归执行上述步骤

 

二、决策树的剪枝

极小化决策树整体的损失函数或代价函数

 

设置一个信息增益的阀值自下而上遍历决策树,将信息增益低于阀值的拆分进行合并

posted @ 2018-04-19 18:35  夜游星  阅读(440)  评论(0编辑  收藏  举报