[模式识别复习笔记] 第8章 决策树
1. 决策树
1.1 决策树简介
决策树(Decision Tree)是一种以 树形数据结构 来展示决策规则和分类结果的模型。每一条从根结点(对最终分类结果贡献最大的属性)到叶子结点(最终分类结果)的路径都代表一条决策的规则。

1.2 决策树的构建过程
-
首先生成一个 根节点,其 包含所有的样本。
-
判断划分:
-
若 当前节点中所有样本 都属于 同一类别
。此时 无需再进行划分,此节点 标记为 类别的叶子节点。 -
若 数据为空,此时 无法进行划分,此节点 标记为
中样本最多的类。
-
-
选择当前条件下的 最优属性进行划分。
-
经历上步骤划分后,生成新的节点。
继续循环判断,不断生成新的分支节点,直到所有节点都跳出循环。
最后生成一颗决策树。
2. 最优划分属性的选择
2.1 信息增益
2.1.1 基本概念
-
信息熵
熵 用来衡量一个随机变量取值的不确定程度,设
是一个取有限个值( 类)的离散随机变量,其概率分布为:则随机变量
的熵定义为:当
时,定义 。当
以 为底,此时熵的单位为比特 ;当
以 为底,此时熵的单位为纳特 。
-
信息熵的性质
熵只依赖于随机变量的分布。
对于一个有
个取值的随机变量 ,可以证明:-
当
时,也就是 所有概率相等 时, 的熵取得最大值 。 -
当
时, 的熵取得最小值 。
熵越大,表明随机变量
的取值的 不确定性越大。 -
-
条件熵
衡量随机变量
的取值已知的条件下,随机变量 取值的不确定性:
-
信息增益
表示在得知
后,随机变量 不确定性减少的程度,也是 确定性增加的程度:
2.1.2 基于信息增益学习决策树
在决策树中,将样本类别看作是一个随机变量。对于一个
记
将类别变量的熵称为 训练集
假设选取了属性
用
选择
而选择的 最优划分属性 是信息增益最大的属性(增加确定性最多):
例题 1

解:


例题 2
设
求

2.2 基尼指数
2.2.1 基本概念
-
基尼值
给定一个样本集
,记 是 中第 类样本所占比例, 。从 中 随机抽取两个样本,则 两个样本类别不同的概率 为:样本集
的 基尼值 定义为: 反映了样本集 的不纯度。 越大,样本集 的不纯度越大(纯度越低)。
-
基尼指数
属性
关于样本集 的 基尼指数 定义为:
2.2.2 基于基尼指数学习决策树
在候选属性集合
例题 1
将 2.1.2 中的例题 1 改为采用基尼指数判断最优划分属性。写出决策树的构建过程。
解:

一切都是命运石之门的选择,本文章来源于博客园,作者:MarisaMagic,出处:https://www.cnblogs.com/MarisaMagic/p/18261737,未经允许严禁转载
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律