决策树-CART 回归树

决策树-ID3、C4.5

决策树-CART 分类树

决策树-CART 回归树

决策树后剪枝


分类回归树(classification and regression tree, CART)既可用于分类也可用于回归。

CART分类树、CART 回归树统称 CART 决策树。

CART 学习分三步:特征选择、决策树的生成、剪枝

CART 决策树是二叉树。对 CART 回归树用均方误差最小化准则,CART 分类树用基尼系数最小化Gini index)准则,进行特征选择,生成二叉树。


假设 XY 是输入、输出变量,Y 是连续的。给定训练集

D={(x1,y1),(x2,y2),...,(xN,yN)}

生成回归树。

一颗回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。假设已将输入空间划分为 M 个单元 R1,R2,...,RM,并且在每个单元 Rm 上有一个固定的输出值 cm,于是回归树模型

f(x)=m=1McmI(xRm)

当输入空间划分确定时,可用平方误差 xiRm(yif(xi))2 来表示回归树对训练数据的预测误差,用平方误差最小的准则求解每个单元上的最优输出值。易知,单元 Rm 上的 cm 的最优值 c^mRm 上的所有输入实例 xi 对应的输出 yi 的均值,即

c^m=ave(yi|xiRm)


CART回归树(或最小二乘回归树)生成算法:

基于均方误差最小化来进行模型求解的方法称为最小二乘法

输入:训练集 D

输出:回归树 f(x)

在训练集所在的输入空间中,递归地将每个区域划分为两个子区域并决定每个子区域上的输出值,构建二叉树。

(1) 选择最优切分变量 j 、切分点 s

(1)minj,s[minc1 xiR1(j,s)(yic1)2+minc2 xiR2(j,s)(yic2)2]

遍历变量 j,对固定的切分变量 j 扫描切分点 s选择使式 (1) 达到最小值的 (j,s)

(2) 用选定的 (j,s) 划分区域并决定响应的输出值:

R1(j,s)={x|x(j)s},    R2(j,s)={x|x(j)>s}c^m=1Nm xiRm(j,s)yi,    xRm,    m=1,2

Nm 表示叶子结点的样本个数。

(3) 继续对两个子区域调用步骤 (1),(2),直到满足停止条件。

(4) 将输入空间划分为 M 个区域 R1,R2,...,RM,生成回归树:

f(x)=m=1Mc^mI(cRm)


即:

  1. 考虑数据集 D 上的所有特征 j,遍历每一个特征下所有可能的取值即切分点 s,将数据集分为两部分 R1R2
  2. 分别计算两个子集的均方误差和,选择最小的均方误差对应的切分特征、切分点,生成两个子区域。
  3. 对子区域递归调用步骤 12,直到满足停止条件。

1数据集 D

选择切分特征 0,切分点 3,将数据分为两部分。

同样,选择切分特征 1,切分点 20,将数据分为两部分。

以上就是切分特征、切分点的选择。



posted @   做梦当财神  阅读(5105)  评论(0编辑  收藏  举报
编辑推荐:
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)
点击右上角即可分享
微信分享提示