决策树知识点概括

简述

　　决策树是递归地选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个好的分类的过程，这一过程也对应着特征空间的划分和决策树的构建。

　　开始，构建根节点，所有训练集都放在根节点，选择一个最优特征，分割数据集，若所有数据子集都能被分类正确，则构建叶节点；否则，继续对子集选择新的最优特征，再次分割，直至所有子集都被分至叶节点。

优点

缺点

熵

信息增益

ID3算法划分特征使用的是信息增益
一个属性的信息增益越大，表明属性对样本的熵减少的能力就更强，该属性使得数据所属类别的不确定性变为确定性的能力越强
信息增益是经验熵H（D）与经验条件熵H（D|A）之差
经验熵表示对数据集进行分类的不确定性，条件经验熵表示在特征A给定的条件下对数据集进行分类的不确定性，所以，信息增益就表示由于特征A而使得对数据集D的分类的不确定性减少的程度
作用：特征选择，即选取对训练数据能够正确分类的特征
缺点：偏向于选择取值较多的特征

信息增益率

　　另外，无论是ID3还是C4.5最好在小数据集上使用，决策树分类一般只试用于小数据。当属性取值很多时最好选择C4.5算法

Gini指数

剪枝

posted @ 2017-08-16 15:24 肖云阅读(493) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

肖云