5、统计学习方法--决策树

决策树（ID3、C4.5、CART）

1、决策树基本介绍

决策树是一种基本的分类与回归方法，他既可以是if-then 规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

主要有点：可读性、分类快
本质：从训练数据集中归纳出一组分类规则

2、决策树模型

决策树构建策略

常用算法：

ID3是：使用信息增益的方式来选择特征 --容易过拟合
C4.5：用信息增益比来选择特征
分类与回归树 CART算法可以分类也可以回归

算法过程

特征选择、
决策树生成、
决策树的剪枝（通过极小化决策树整体的损失函数或代价函数实现）

3、特征选择

特征选在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习效率。
选取准则：信息增益、信息增益比

1、信息商

注意：式子中的对数是以2或者e为底，熵只依赖于X的分布不依赖X的取值，所以也可以将X的熵记做H(p)

使用决策树的过程是不断减少信息熵的过程---计算示例见下图

2、信息增益

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
定义：特征A对训练数据集D的信息增益g(D,A),定义为集合的经验熵H(D)与特征A给定条件下D的经验熵H(D|A)之差：即
g(D,A)=H(D)-H(D|A)
如果A1,A2，A3 分别代表颜色、硬度、香味，那么在选择分类特征的时候就需要取一个使得信息增益最大的特征如下式：
argmax{g(D|A1),g(D|A2),g(D|A2)}
如果通过计算得知颜色的信息增益最大那么就可以通过硬度来划分
在计算某一个特征信息增益的时候如下：
g(D,A) = H(D)-H(D|A) = H(D)-{H(D1|A)+H(D2|A)}

注意：如果选择特征是颜色如下图
D1就是左边4个红色苹果的信息熵
D2就是左边6个红色苹果的信息熵

1、信息增益计算方法

简单解释
假设有10个苹果，4个好苹果 6个坏苹果，特征分别是颜色、硬度、味道

（1）计算经验熵
H(D)=-[4/10log4/10+6/10log6/10]
（2）计算特征A对数据集D的经验条件熵H(D|A)

H(D1|A)=1/4log1/4+3/4log3/4
H(D2|A)=3/6log3/6+3/6log3/6

H(D|A)=-[4/10*(D1|A)+6/10*(D2|A)]

  =-[4/10*(1/4*log1/4+3/4*log3/4)+6/10&*(3/6*log3/6+3/6*log3/6)]

g(D,A)=H(D)-H(D|A)=........

计算实例

信息增益推导（每个特征都计算一遍信息增益求出薪资增益最大的特征）

信息增益比

如果以信息增益为划分依据，存在偏向选择取值较多的特征，信息增益比是对比这一问题进行校正

4、决策树的构建

ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征，递归的构建决策树。

具体方法：从根节点开始，对节点计算所有可能的特征的信息增益，选择信息增益最大的特征作为借点特征，由该特征的不同取值建立子节点，再对子节点递归调用以上方法，构建决策树；直到所有特征的信息增益均很小或者没有特征可以选择为止。
ID3相当于用极大似然法进行概率模型的选择。

ID3生成算法

C4.5生成算法

5、决策树剪枝

在决策树学习中，将已生成的树进行简单化的过程称为剪枝。

待补充

6、CART算法--分类回归树（可以分类也可以回归）--基尼系数--纯二叉树

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。
CART分类树算法使用基尼系数来代替信息增益比，基尼系数代表了模型的不纯度，基尼系数越小，不纯度越低，特征越好。这和信息增益（比）相反。

CART算法由两步组成

（1）决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大。
（2）决策树剪枝：用经验数据集对已生成的树进行剪枝并选择最优子树，这是用损失函数最小作为剪枝的标准。

1、基尼系数

假设K个类别，第k个类别的概率为pk，概率分布的基尼系数表达式：
如果是二分类问题，第一个样本输出概率为p，概率分布的基尼系数表达式为：
对于样本D，个数为|D|，假设K个类别，第k个类别的数量为|Ck|，则样本D的基尼系数表达式：

对于样本D，个数为|D|，根据特征A的某个值a，把D分成|D1|和|D2|，则在特征A的条件下，样本D的基尼系数表达式为：

比较基尼系数和熵模型的表达式，二次运算比对数简单很多。尤其是二分类问题，更加简单。

和熵模型的度量方式比，基尼系数对应的误差有多大呢？对于二类分类，基尼系数和熵之半的曲线如下：

基尼系数和熵之半的曲线非常接近，因此，基尼系数可以做为熵模型的一个近似替代。
　CART分类树算法每次仅对某个特征的值进行二分，而不是多分，这样CART分类树算法建立起来的是二叉树，而不是多叉树。

2、CART分类树算法具体流程

CART分类树建立算法流程，之所以加上建立，是因为CART分类树算法有剪枝算法流程。

算法输入训练集D，基尼系数的阈值，样本个数阈值。
输出的是决策树T。

算法从根节点开始，用训练集递归建立CART分类树。

(1)、对于当前节点的数据集为D，如果样本个数小于阈值或没有特征，则返回决策子树，当前节点停止递归。
(2)、计算样本集D的基尼系数，如果基尼系数小于阈值，则返回决策树子树，当前节点停止递归。
(3)、计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数，对于离散值和连续值的处理方法和基尼系数的计算见第二节。缺失值的处理方法和C4.5算法里描述的相同。
(4)、在计算出来的各个特征的各个特征值对数据集D的基尼系数中，选择基尼系数最小的特征A和对应的特征值a。根据这个最优特征和最优特征值，把数据集划分成两部分D1和D2，同时建立当前节点的左右节点，做节点的数据集D为D1，右节点的数据集D为D2。
(5)、对左右的子节点递归的调用1-4步，生成决策树。

　　对生成的决策树做预测的时候，假如测试集里的样本A落到了某个叶子节点，而节点里有多个训练样本。则对于A的类别预测采用的是这个叶子节点里概率最大的类别。

3、案例

例：根据下表所给的训练集，应用CART算法生成决策树。

##4、CART分类树算法对连续特征和离散特征的处理

　　CART分类树算法对连续值的处理，思想和C4.5相同，都是将连续的特征离散化。唯一区别在选择划分点时，C4.5是信息增益比，CART是基尼系数。

　　具体思路：m个样本的连续特征A有m个，从小到大排列a1，a2，......，am，则CART取相邻两样本值的平均数做划分点，一共取m-1个，其中第i个划分点Ti表示为：Ti = (ai + ai+1)/2。分别计算以这m-1个点作为二元分类点时的基尼系数。选择基尼系数最小的点为该连续特征的二元离散分类点。比如取到的基尼系数最小的点为at，则小于at的值为类别1，大于at的值为类别2，这样就做到了连续特征的离散化。

　　注意的是，与ID3、C4.5处理离散属性不同的是，如果当前节点为连续属性，则该属性在后面还可以参与子节点的产生选择过程。

　　CART分类树算法对离散值的处理，采用的思路：不停的二分离散特征。

　　在ID3、C4.5，特征A被选取建立决策树节点，如果它有3个类别A1,A2,A3，我们会在决策树上建立一个三叉点，这样决策树是多叉树。

　　CART采用的是不停的二分。会考虑把特征A分成{A1}和{A2,A3}、{A2}和{A1,A3}、{A3}和{A1,A2}三种情况，找到基尼系数最小的组合，比如{A2}和{A1,A3}，然后建立二叉树节点，一个节点是A2对应的样本，另一个节点是{A1,A3}对应的样本。由于这次没有把特征A的取值完全分开，后面还有机会对子节点继续选择特征A划分A1和A3。这和ID3、C4.5不同，在ID3或C4.5的一颗子树中，离散特征只会参与一次节点的建立。

5、 CART回归树建立算法

CART回归树和CART分类树的建立类似，这里只说不同。

　　(1)、分类树与回归树的区别在样本的输出，如果样本输出是离散值，这是分类树；样本输出是连续值，这是回归树。分类树的输出是样本的类别，回归树的输出是一个实数。

　　(2)、连续值的处理方法不同。

　　(3)、决策树建立后做预测的方式不同。

　　分类模型：采用基尼系数的大小度量特征各个划分点的优劣。

　　回归模型：采用和方差度量，度量目标是对于划分特征A，对应划分点s两边的数据集D1和D2，求出使D1和D2各自集合的均方差最小，同时D1和D2的均方差之和最小。表达式为：

其中，c1为D1的样本输出均值，c2为D2的样本输出均值。

　　对于决策树建立后做预测的方式，CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。回归树输出不是类别，采用叶子节点的均值或者中位数来预测输出结果。

CART树算法的剪枝

　　CART树的生成：基于训练数据集，递归构建二叉决策树。CART树的剪枝：用验证数据集对生成的树进行剪枝并选择最优子树，损失函数最小作为剪枝的标准。

　　CART分类树的剪枝策略在度量损失的时候用基尼系数；CART回归树的剪枝策略在度量损失的时候用均方差。

　　决策树很容易对训练集过拟合，导致泛化能力差，所以要对CART树进行剪枝，即类似线性回归的正则化。CART采用后剪枝法，即先生成决策树，然后产生所有剪枝后的CART树，然后使用交叉验证检验剪枝的效果，选择泛化能力最好的剪枝策略。
　

剪枝损失函数表达式

α为正则化参数(和线性回归的正则化一样)，C(Tt)为训练数据的预测误差，|Tt|是子树T叶子节点数量。

　　当α = 0时，即没有正则化，原始生成的CART树即为最优子树。当α = ∞时，正则化强度最大，此时由原始的生成CART树的根节点组成的单节点树为最优子树。当然，这是两种极端情况，一般来说，α越大，剪枝剪的越厉害，生成的最优子树相比原生决策树就越偏小。对于固定的α，一定存在使得损失函数Cα(Tt)最小的唯一子树

剪枝的思路：

　　对于位于节点t的任意一颗子树Tt，如果没有剪枝，损失函数是：

如果将其剪掉，仅保留根节点，损失函数是：

当α = 0或α很小，Cα(Tt)<Cα(T)，当α增大到一定程度时

当α继续增大时不等式反向，即满足下式：

Tt和T有相同的损失函数，但T节点更少，因此可以对子树Tt进行剪枝，也就是将它的子节点全部剪掉，变为一个叶子结点T。

　交叉验证策略：

　　如果我们把所有节点是否剪枝的值α都计算出来，然后针对不同α对应的剪枝后的最优子树做交叉验证。这样可以选择最好的α，有了这个α，用对应的最优子树作为最终结果。

　　有了上面的思路，CART树的剪枝算法：

　　输入是CART树建立算法得到的原始决策树T。

　　输出是最优决策树Tα。

　　算法过程：

　　(1)、初始化αmin = ∞，最优子树集合ω = {T}。

　　(2)、从叶子结点开始自下而上计算内部节点 t 的训练误差损失函数Cα(Tt)（回归树为均方差，分类树为基尼系数），叶子节点数|Tt|，以及正则化阈值
，更新αmin = α

　　(3)、得到所有节点的α值得集合M。

　　(4)、从M中选择最大的值αk，自上而下的访问子树 t 的内部节点，如果
时，进行剪枝。并决定叶子节点 t 的值。如果是分类树，这是概率最高的类别，如果是回归树，这是所有样本输出的均值。这样得到αk对应的最优子树Tk

　　(5)、最优子树集合ω = ωυTk，M = M - {αk}。

　　(6)、如果M不为空，则回到步骤4。否则就已经得到了所有的可选最优子树集合ω。

　　(7)、采用交叉验证在ω选择最优子树Tα
　
　　

总结

回归的时候是用均方差

--CART算法缺点：

(1)、无论ID3，C4.5，CART都是选择一个最优的特征做分类决策，但大多数，分类决策不是由某一个特征决定，而是一组特征。这样得到的决策树更加准确，这种决策树叫多变量决策树(multi-variate decision tree)。在选择最优特征的时，多变量决策树不是选择某一个最优特征，而是选择一个最优的特征线性组合做决策。代表算法OC1。

(2)、样本一点点改动，树结构剧烈改变。这个通过集成学习里面的随机森林之类的方法解决。

优点：

　这里不纠结ID3、C4.5、CART，这部分来自scikit-learn英文文档。

1、简单直观，生成的决策树很直观。
2、基本不需要预处理，不需要提前归一化和处理缺失值。
3、使用决策树预测的代价是O(log2m)。m为样本数。
4、既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。
5、可以处理多维度输出的分类问题。
6、相比于神经网络之类的黑盒分类模型，决策树在逻辑上可以很好解释。
7、可以交叉验证的剪枝来选择模型，从而提高泛化能力。
8、对于异常点的容错能力好，健壮性高。

缺点：

1、决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。
2、决策树会因为样本发生一点的改动，导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
3、寻找最优的决策树是一个NP难题，我们一般是通过启发式方法，容易陷入局部最优。可以通过集成学习的方法来改善。
4、有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。
5、如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。

posted @ 2021-11-10 22:35 glin_it 阅读(402) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

glin_it