CART剪枝过程

Classification And Regression Tree，CART，分类与回归树，一种二叉决策树。作为一种决策树算法，CART与其他决策树一样，由特征选择、树的生成和剪枝组成。本文介绍CART算法生成决策树 $T_0$ 后如何对其进行剪枝（将子树变成叶子节点）。
在这里插入图片描述

剪枝过程分为两步：

从 $T_0$ 的底端开始不断剪枝，直到 $T_0$ 的根节点，形成一个子树序列 $\{ T_0, T_1, ..., T_n \}$

通过交叉验证选择最优的子树作为剪枝后的CART

1. 剪枝，形成子树序列

在剪枝过程中，使用以下损失函数作为是否剪枝的依据：

C_{α} (T) = C (T) + α | T |

$C_{\alpha}(T) = C(T) + \alpha |T|$

其中 $T$ 可以是任意子树， $C(T)$ 是 $T$ 在训练数据上的误差（根据回归或者分类，可以是均方误差或者基尼指数）， $|T|$ 是 $T$ 的叶子节点数， $\alpha$ 是参数， $C_a(T)$ 是参数是 $\alpha$ 时 $T$ 的整体损失。 $\alpha$ 可以权衡训练数据的拟合程度与模型复杂度（ $|T|$ ）。因此， $\alpha$ 越大，则更倾向于选择更小的树，随着 $\alpha$ 的增大，使 $C_{\alpha}(T)$ 最小的树逐渐从 $T_0$ 变成最后的单节点的树。

对于固定的 $\alpha$ ，可以验证存在唯一的子树使 $C_\alpha(T)$ 最小。

具体过程如下：
从 $T_0$ 开始，自下而上地考虑每个内部节点 $t$ ，考虑两种情况：

1）以 $t$ 为根节点的子树 $T_t$ ，其损失为： $C_\alpha(T_t) = C(T_t) + \alpha|T_t|$ ；
2）对 $t$ 进行剪枝，即将 $T_t$ 作为叶子节点，其损失为： $C_\alpha(t) = C(t) + \alpha$ ;

我们来比较 $C_\alpha(T_t)，C_\alpha(t)$ ，看看要不要对 $t$ 进行剪枝：

当 $\alpha$ 较小时，可以容忍模型有较高的复杂度，这个时候主要保证在训练数据上误差很小即可，所以 $C_\alpha(T_t) < C_\alpha(t)$ ，即这个时候不需要剪枝；
当 $\alpha$ 逐渐增大到某一值时，这个时候需要考虑在训练数据上误差很小且模型有较低的复杂度，所以 $C_\alpha(T_t) = C_\alpha(t)$ ，即这个时候剪不剪枝都可以；
当 $\alpha$ 继续增大， $C_\alpha(T_t) > C_\alpha(t)$ ，这个时候剪枝带来的收益大于作为一棵子树 $T_t$ 所带来的收益，所以要剪枝；

从以上过程我们可以看出，对于树中的每个内部节点 $t$ ，都有一个特定的 $\alpha$ 阈值 $g(t)$ ，来决定是否需要对其进行剪枝，且该阈值等于 $g(t) = \frac{C(t) - C(T_t)}{|T_t| - 1}$ （由上述关于 $C_\alpha(T_t)，C_\alpha(t)$ 大小的比较可以得出）。其实 $\alpha$ 可以看作是模型性能和复杂度之间的一个权衡， $g(t)$ 的分子是剪枝后误差的增大量（相当于精度的下降量），分母是剪掉的叶子结点数，相当于在模型复杂度方面的收益， $g(t)$ 是二者的一个比值，即愿意精度降低和复杂度降低之间的一个权衡。

因此，在生成 $T_1$ 时，我们可以计算 $T_0$ 的每个内部节点的 $g(t)$ ，选择其中最小的 $g(t)$ 最为 $\alpha_1$ (为啥要选择最小的呢？这个还不是很清楚)，对该结点进行剪枝后就可以子树序列中的 $T_1$ 了。接着在 $T_1$ 的基础上持续剪枝，就可以得到最终的子树序列。

在生成子树序列的过程中，我们也可以得到一个 $\alpha$ 序列 $0=\alpha < \alpha_1 < \alpha_2 < ... < \alpha_n < +\infty$ ，这个序列对应着一个区间 $[\alpha_i, \alpha_{i+1}),\quad i=0, 1, ..., n$ ，这与我们得到的子树序列是相对应的， $T_i$ 对应着 $[\alpha_i, \alpha_{i+1})$ 。

其实，在生成子树序列的过程中，我们计算 $C_\alpha(T_t)，C_\alpha(t)$ 是为了判断：当模型复杂度有多重要时我们需要对 $t$ 进行剪枝，也就是剪枝后带来的收益大于作为子树带来的模型效果收益。

2. 交叉验证

使用验证数据集，测试子树序列中每棵子树的损失，选择最小的作为剪枝后的决策树，这个时候也对应了一个 $\alpha_k$ 。

Reference

统计学习方法，李航，第二版

posted @ 2021-11-01 15:11 Milkha 阅读(425) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· DeepSeek “源神”启动！「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1：开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化（本地部署与 API 调用教程）
· spring官宣接入deepseek，真的太香了~

公告

昵称： Milkha
园龄： 3年11个月
粉丝： 3
关注： 2

+加关注

2025年2月

日

一

二

三

四

五

六

Milkha

CART剪枝过程

1. 剪枝，形成子树序列

2. 交叉验证

Reference

公告

搜索

常用链接

最新随笔

我的标签

合集 (2)

随笔分类 (14)

随笔档案 (15)

文章分类 (66)

相册 (21)

阅读排行榜

推荐排行榜

最新评论