有多少人工，就有多少智能

CART回归树与分类树

输出是连续变量的是回归树，输出是离散变量的是分类树。

CART决策树是一个二叉树。

回归树：

$f(x)=\sum_{m=1}^{M} c_{m} I\left(x \in R_{m}\right)$

输入空间划分为M个单元 $R_{1}, R_{2}, \cdots, R_{M}$ ，单元 $R_{m}$ 对应输出 $c_{m}$ ， $I$ 是其对应的输入空间。

输出 $c_{m}$ 取 $I\left(x \in R_{m}\right)$ 上所有输出的均值：

${c}_{m}=\operatorname{ave}\left(y_{i} | x_{i} \in R_{m}\right)$

下面，看输入空间的划分方法。

假设最优切分变量 $j$ ，最优切分点 $s$ ，输入空间被划分为两部分：

$R^{a}(j, s)=\left\{x | x^{(j)} \leqslant s\right\} \quad \text { 和 } \quad R^{b}(j, s)=\left\{x | x^{(j)}>s\right\}$

它们的输出是各自输入空间中样本标签值 $y_{i}$ 的均值 $c^{a}$ 和 $c^{b}$ 。

因此，优化目标为：

$\min _{j, s}\left[\sum_{x_{i} \in R^{a}(j, s)}\left(y_{i}-c^{a}\right)^{2}+\sum_{x_{i} \in R^{b}(j, s)}\left(y_{i}-c^{b}\right)^{2}\right]$

穷举 $j和s$ ，找到最优切分变量 $j$ 和切分点 $s$ 。

之后，分治递归直到满足终止条件（例如误差小于某阈值、样本个数小于某阈值、没有更多特征等）。

分类树：

一个样本集合 $D$ 的基尼指数（值越大，不确定性越大）：

$\operatorname{Gini}(D)=1-\sum_{k=1}^{K}\left(\frac{\left|C_{k}\right|}{|D|}\right)^{2}$

其中， $C_{k}$ 是属于第 $k$ 类的样本子集。

将样本集合 $D$ 划分为 $A=a$ 和 $A\ne a$ 的两部分 $D_{1}$ 和 $D_{2}$ ，对这种划分定义基尼指数：

$\operatorname{Gini}(D, A)=\frac{\left|D_{1}\right|}{|D|} \operatorname{Gini}\left(D_{1}\right)+\frac{\left|D_{2}\right|}{|D|} \operatorname{Gini}\left(D_{2}\right)$

它表征了经分割后，样本集合D的不确定性，同样地，基尼指数越小，样本不确定性越小。

选择使 $\operatorname{Gini}(D, A)$ 最小的 $A和a$ 。

之后，分治递归直到满足终止条件即可。

posted @ 2021-01-12 20:57 lvdongjie-avatarx 阅读(131) 评论(0) 编辑收藏举报

刷新页面返回顶部