微信扫一扫打赏支持

201119西瓜书系列博客---4、决策树

201119西瓜书系列博客---4、决策树

一、总结

一句话总结：

决策树学习的【目的是为了产生一棵泛化能力强】，即处理未见示例能力强的决策树，其基本流程遵循简单且直观的【分而治之（divide-and-conquer）】策略。

1、决策树的结构？

一般的，决策树包含一个【根结点，多个内部结点和多个叶结点】

【叶结点表示决策结果（好瓜，坏瓜）】：根据叶结点里面的的样本集合判定该叶结点的决策结果

【内部结点和根结点对应属性测试（attr=?）】：将结点内的样本集合根据属性测试的结果划分到各个子结点；根结点包含样本全集

从根结点到每个叶结点的【路径即对应着一个判定测试序列】

2、决策树学习的关键？

【决策树学习的关键】是如何【选择最优划分属性】

一般而言，随着划分过程的不断进行，我们希望决策树的分直接点所包含的样本尽可能属于同一类别，即【结点的纯度(purity)越来越高】。（也即信息熵越低）

数据集D的纯度可用【基尼值】来度量

3、剪枝处理（【决策树对付过拟合的主要手段】）？

【剪枝(pruning)】是决策树学习算法对付【“过拟合”】的主要手段。

【决策树分支过多】，可能【把训练集中的一些特性当作所有数据都具有的一般性质而导致过拟合】。

4、一些决策树学习算法可进行【“增量学习”(incremental learning)】？

主要机制是【通过调整分支路径上的划分属性次序来对树进行部分重构】，代表性算法有【ID4,ID5R,ITI】。增量学习可以【有效降低每次接收到新样本后的训练时间开销】，但多步增量学习后的模型会与基于全部数据训练而得的模型有较大差别

二、201119西瓜书系列博客---4、决策树

转自或参考：西瓜书学习笔记——第四章：决策树
https://blog.csdn.net/shichensuyu/article/details/90441795

posted @ 2020-11-20 23:16 范仁义阅读(157) 评论(0) 收藏举报

刷新页面返回顶部