【机器学习笔记之三】CART 分类与回归树

本文结构：

CART算法有两步
回归树的生成
分类树的生成
剪枝

CART － Classification and Regression Trees

分类与回归树，是二叉树，可以用于分类，也可以用于回归问题，最先由 Breiman 等提出。

分类树的输出是样本的类别，回归树的输出是一个实数。

CART算法有两步：

决策树生成和剪枝。

决策树生成：递归地构建二叉决策树的过程，基于训练数据集生成决策树，生成的决策树要尽量大；

自上而下从根开始建立节点，在每个节点处要选择一个最好的属性来分裂，使得子节点中的训练集尽量的纯。

不同的算法使用不同的指标来定义"最好"：

分类问题，可以选择GINI，双化或有序双化；
回归问题，可以使用最小二乘偏差（LSD）或最小绝对偏差（LAD）。

决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时损失函数最小作为剪枝的标准。

这里用代价复杂度剪枝 Cost-Complexity Pruning(CCP)

回归树的生成

回归树模型表示为：

其中，数据空间被划分成了 R1～Rm 单元，每个单元上有一个固定的输出值 cm。
这样就可以计算模型输出值与实际值的误差：

我们希望每个单元上的 cm，可以使得这个平方误差最小化，易知当 cm 为相应单元上的所有实际值的均值时，可以达到最优：

那么如何生成这些单元划分？

假设，我们选择变量 xj 为切分变量，它的取值 s 为切分点，那么就会得到两个区域：

当 j 和 s 固定时，我们要找到两个区域的代表值 c1，c2 使各自区间上的平方差最小，

前面已经知道 c1，c2 为区间上的平均，

那么对固定的 j 只需要找到最优的 s，
然后通过遍历所有的变量，我们可以找到最优的 j，
这样我们就可以得到最优对（j，s），并得到两个区间。

上述过程表示的算法步骤为：

即：
(1)考虑数据集 D 上的所有特征 j，遍历每一个特征下所有可能的取值或者切分点 s，将数据集 D 划分成两部分 D1 和 D2
(2)分别计算上述两个子集的平方误差和，选择最小的平方误差对应的特征与分割点，生成两个子节点。
(3)对上述两个子节点递归调用步骤(1)(2),直到满足停止条件。

分类树的生成

(1)对每个特征 A，对它的所有可能取值 a，将数据集分为 A＝a，和 A!＝a 两个子集，计算集合 D 的基尼指数：

(2)遍历所有的特征 A，计算其所有可能取值 a 的基尼指数，选择 D 的基尼指数最小值对应的特征及切分点作为最优的划分，将数据分为两个子集。
(3)对上述两个子节点递归调用步骤(1)(2), 直到满足停止条件。
(4)生成 CART 决策树。

其中 GINI 指数：

1、是一种不等性度量；
2、是介于 0~1 之间的数，0-完全相等，1-完全不相等；
3、总体内包含的类别越杂乱，GINI指数就越大（跟熵的概念很相似）

定义：
分类问题中，假设有 K 个类，样本属于第 k 类的概率为 pk，则概率分布的基尼指数为：

样本集合 D 的基尼指数为：

其中 Ck 为数据集 D 中属于第 k 类的样本子集。

如果数据集 D 根据特征 A 在某一取值 a 上进行分割，得到 D1 ，D2 两部分后，那么在特征 A 下集合 D 的基尼指数为：

其中算法的停止条件有：

1、节点中的样本个数小于预定阈值，
2、样本集的Gini系数小于预定阈值（此时样本基本属于同一类），
3、或没有更多特征。

下面来看一下例子：

最后一列是我们要分类的目标。

例如，按照“体温为恒温和非恒温”进行划分，计算如下：

恒温时包含哺乳类5个、鸟类2个

非恒温时包含爬行类3个、鱼类3个、两栖类2个

得到特征‘体温’下数据集的GINI指数：

最后我们要选 GINI_Gain 最小的特征和相应的划分。

剪枝

就是在完整的决策树上，剪掉一些子树，使决策树变小。

是为了减少决策树过拟合，如果每个属性都被考虑，那决策树的叶节点所覆盖的训练样本基本都是“纯”的，这时候的决策树对训练集表现很好，但是对测试集的表现就会比较差。

决策树很容易发生过拟合，可以改善的方法有：
1、通过阈值控制终止条件，避免树形结构分支过细。
2、通过对已经形成的决策树进行剪枝来避免过拟合。
3、基于Bootstrap的思想建立随机森林。

这里我们用 代价复杂度剪枝 Cost-Complexity Pruning(CCP) 方法来对 CART 进行剪枝。

从整个树 T0 开始，先剪去一棵子树，生成子树 T1，
在 T1 上再剪去一棵子树，生成子树 T2，
重复这个操作，直到最后只剩下一个根节点的子树 Tn，
得到了子树序列 T0～Tn，
利用独立的验证数据集，计算每个子树的平方误差或者基尼指数，
选择误差最小的那个子树作为最优的剪枝后的树。

那么这个子树序列是怎么剪出来的？
因为建模的时候，目标就是让损失函数达到最优，那剪枝的时候也用损失函数来评判。

损失函数是什么呢？
对任意子树 T，损失函数如下形式，cost-complexity function：

其中 CT 为误差（例如基尼指数），|T| 为 T 的叶节点个数，alpha 为非负参数，用来权衡训练数据的拟合程度和模型的复杂度。

alpha 固定时，一定可以找到一个子树 T，使得等式右边达到最小，那么这个 T 就叫做最优子树。

对固定的 alpha 找到损失函数最小的子树 T，二者之间有这样的关系：alpha 大时，T 偏小，alpha 小时，T 偏大。

那如果将 alpha 从小增大设置为一个序列，T 就可以从大到小得到相应的最优子树序列，并且还是嵌套的关系。

剪的时候，哪个树杈是可以被剪掉的呢？
很容易想到的是，如果剪掉后和没剪时的损失函数一样或者差别不大的话，那当然是剪掉好了，只留下一个点，就能代表一个树杈，这样树就被简化了。

以节点 t 为单节点树时，它的损失函数为：（后面剪枝后就可以用一个点来代替一个树杈）

以节点 t 为根节点的子树 Tt，它的损失函数为：（后面剪枝这个树杈）

那么接下来的问题就是能不能找到这样的点呢？
上面令 alpha＝0，就有 Tt 和 t 的损失函数的关系为：

那么增大 alpha，当它为如下形式时：

此时，Tt 和 t 的损失函数相等，而 t 的节点少，那么保留 t 就可以了，Tt 就可以剪掉了。

那么在剪枝算法的第三步时，对每个 t，计算一下 gt，也就是能找到子树 Tt 和 t 的损失函数相等时的 alpha，

每个点 t 都可以找到符合这样条件的 alpha，
遍历所有节点 t 后，找到最小的这个 alpha，

第四步，再把这个 alpha 对应的节点 t 的子树 Tt 剪掉，
并用多数投票表决法决定 t 上的类别，
这样得到的剪枝后的树 T 记为 Tk，
这时的 alpha 记为 alpha k，

经过上面步骤，会得到：
α1⩽α2⩽ ... ⩽αk⩽ ...
T1⊇T2⊇ ... ⊇Tk⊇ ... ⊇{root}

例子：

下面这棵树，有三个点 t1≡root,t2,t3

α(1)=0

计算每个点的 gt：

t2，t3 时的 gt 相等，此时我们可以选择剪枝少的点，那就是 t3 剪掉。

并且 α(2)=1/8

这时剩下 t1，t2，再继续计算 gt：

t2 的小，所以剪掉 t2:

并且令 α(3)=1/8

最后剩下 t1，计算后 gt=1/4，所以 α(4)=1/4。

如此我们得到：α(0)=0,α(1)=1/8,α(2)=1/8,α(3)=1/4
并且得到了相应的子树，
接下来就可以利用独立的验证数据集，计算每个子树的平方误差或者基尼指数，

选择误差最小的那个子树作为最优的剪枝后的树。

资料：
统计学习方法
https://wizardforcel.gitbooks.io/dm-algo-top10/content/cart.html
http://blog.csdn.net/baimafujinji/article/details/53269040
http://blog.csdn.net/luoshixian099/article/details/51811945
https://www.zhihu.com/question/22697086
http://mlwiki.org/index.php/Cost-Complexity_Pruning

posted @ 2017-08-15 08:23 Angel_Kitty 阅读(2685) 评论(2) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· Ollama——大语言模型本地部署的极速利器
· [AI/GPT/综述] AI Agent的设计模式综述

公告

欢迎大家扫下面的二维码关注微信号IThonest，微信公众号名称：IT老实人

一个有故事的程序员的公众号，欢迎来这里讨论，共同进步，不断学习才能不断进步。

我的头像

蒟蒻一枚，有事您Q我～

弱校挣扎的ACMer

我的QQ在这哦！873284962～

我的微信在这哦！nzf6698【加好友请注明姓名和来源哦，谢谢各位支持^-^】～

喵~允许我卖一个萌~~~~

热爱交友！orz

希望大家多多支持，觉得文章好可以点个赞，动动你的鼠标加下关注哦

非常乐意互换友链呐，~o( =∩ω∩= )喵~~~~

有事您Q我

.

求投食~（点图即可）

我的访客量统计：Start From 2017.5.29 19:00

AmazingCounters.com

昵称： Angel_Kitty
园龄： 8年1个月
粉丝： 2675
关注： 50

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

最新随笔

随笔分类 (1357)

随笔档案 (875)

文章档案 (5)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:凯撒密码加解密及破解实现原理
这主题生怕我真学到东西是吧
--马有道
2. Re:模拟退火算法从原理到实战【基础篇】
写的很好就是这个背景让我不是很看得清
--努力吧写论文
3. Re:CTF---隐写术入门第二题小苹果
@翕wen 二次元怎么你了（恼...
--柳大侠
4. Re:Windows 10无法使用debug的解决方案
我滴妈,大佬能把背景图片换一换吗?严重影响阅读
--Rkey
5. Re:【Java学习笔记之三十三】详解Java中try，catch，finally的用法及分析
这个背景完美遮盖了代码啊，根本看不清
--萝卜制作

哥伦布

14°

14:09发布

哥伦布

14:09发布

14°

大雨

南风

3级

空气质量

无

相对湿度

93%

今天

中雨

14°/19°

周日

中雨

5°/19°

周一

晴

1°/11°

Powered by 心知天气