决策树

1.简介

　　决策树（decision tree）：是一种基本的分类与回归方法　

　　决策树学习的目标：根据给定的训练数据集构建一个决策树模型，使它能够对实例进行正确的分类

　　决策树学习的本质：从训练集中归纳出一组分类规则，或者说是由训练数据集估计条件概率模型

　　决策树学习的损失函数：正则化的极大似然函数

　　决策树学习的测试：最小化损失函数

　　决策树学习的目标：在损失函数的意义下，选择最优决策树的问题

　　决策树原理和问答猜测结果游戏相似，根据一系列数据，然后给出游戏的答案

2.决策树通常有三个步骤：

　　特征选择、决策树的生成、决策树的修剪

3.信息增益

　　划分数据集的大原则是：将无序数据变得更加有序

　　在划分数据集前后信息发生的变化称为信息增益

　　集合信息的度量方式称为香农熵，或者简称熵

　　熵定义为信息的期望值，如果待分类的事物可能划分在多个类之中，则符号xi

　　熵

　　经验熵(empirical entropy)

　　条件熵

　　信息增益：信息增益是相对于特征而言的

　　　　特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即：

　　　　一般地，熵H(D)与条件熵H(D|A)之差成为互信息(mutual information)

　　　　信息增益比：特征A对训练数据集D的信息增益比gR(D,A) 与训练数据集D的经验熵之比

4.决策树的构建

　　ID3算法：

　　　　ID3算法的核心是在决策树各个结点上对应信息增益准则选择特征，递归地构建决策树　

　　　　1）从根结点(root node)开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征

　　　　2）由该特征的不同取值建立子节点，再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止

　　　　3）最后得到一个决策树。

　　C4.5的生成算法：

　　　　将信息增益比作为选择特征的标准

posted @ 2018-12-18 09:04 大来阅读(202) 评论(0) 编辑收藏举报

刷新页面返回顶部

大来