有多少人工,就有多少智能

CART回归树与分类树

 

输出是连续变量的是回归树,输出是离散变量的是分类树。

CART决策树是一个二叉树。

回归树:

[公式]

输入空间划分为M个单元 [公式] ,单元 [公式] 对应输出 [公式] , [公式] 是其对应的输入空间。

输出 [公式] 取 [公式] 上所有输出的均值:

[公式]

下面,看输入空间的划分方法。

假设最优切分变量 [公式] ,最优切分点 [公式] ,输入空间被划分为两部分:

[公式]

它们的输出是各自输入空间中样本标签值 [公式] 的均值 [公式] 和 [公式] 。

因此,优化目标为:

[公式]

穷举 [公式] ,找到最优切分变量 [公式] 和切分点 [公式] 。

之后,分治递归直到满足终止条件(例如误差小于某阈值、样本个数小于某阈值、没有更多特征等)。

分类树:

一个样本集合 [公式] 的基尼指数(值越大,不确定性越大):

[公式]

其中, [公式] 是属于第 [公式] 类的样本子集。

将样本集合 [公式] 划分为[公式] 和 [公式] 的两部分 [公式] 和 [公式] ,对这种划分定义基尼指数:

[公式]

它表征了经分割后,样本集合D的不确定性,同样地,基尼指数越小,样本不确定性越小。

选择使 [公式] 最小的 [公式] 。

之后,分治递归直到满足终止条件即可。

posted @ 2021-01-12 20:57  lvdongjie-avatarx  阅读(124)  评论(0编辑  收藏  举报