三、决策树算法梳理

1.信息论基础（熵联合熵条件熵信息增益基尼不纯度）

熵：香农用信息熵的概念来描述信源的不确定度，变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。

联合熵：联合熵表征了两事件同时发生系统的不确定度。

条件熵：设有随机变量（X,Y），其联合概率分布为 p(X=x,Y= yi) = pij，i=1,2,…，n; j=1,2,…，m条件熵H（Y|X）表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X),定义为X给定条件下，Y的条件概率分布的熵对X的数学期望

信息增益：以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。

基尼指数（基尼不纯度）：表示在样本集合中一个随机选中的样本被分错的概率。

2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景

ID3
ID3由Ross Quinlan在1986年提出。ID3决策树可以有多个分支，但是不能处理特征值为连续的情况。决策树是一种贪心算法，每次选取的分割数据的特征都是当前的最佳选择，并不关心是否达到最优。在ID3中，每次根据“最大信息熵增益”选取当前最佳的特征来分割数据，并按照该特征的所有取值来切分，也就是说如果一个特征有4种取值，数据将被切分4份，一旦按某特征切分后，该特征在之后的算法执行中，将不再起作用，所以有观点认为这种切分方式过于迅速。ID3算法十分简单，核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征，信息熵是信息论里面的概念，是信息的度量方式，不确定度越大或者说越混乱，熵就越大。在建立决策树的过程中，根据特征属性划分数据，使得原本“混乱”的数据的熵(混乱度)减少，按照不同特征划分数据熵减少的程度会不一样。在ID3中选择熵减少程度最大的特征来划分数据（贪心），也就是“最大信息熵增益”原则

C4.5
C4.5是Ross Quinlan在1993年在ID3的基础上改进而提出的。.ID3采用的信息增益度量存在一个缺点，它一般会优先选择有较多属性值的Feature,因为属性值多的Feature会有相对较大的信息增益?(信息增益反映的给定一个条件以后不确定性减少的程度,必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大).为了避免这个不足C4.5中是用信息增益比率(gain ratio)来作为选择分支的准则。信息增益比率通过引入一个被称作分裂信息(Split information)的项来惩罚取值较多的Feature。除此之外，C4.5还弥补了ID3中不能处理特征属性值连续的问题。

CART
CART（Classification and Regression tree）分类回归树由L.Breiman,J.Friedman,R.Olshen和C.Stone于1984年提出。ID3中根据属性值分割数据，之后该特征不会再起作用，这种快速切割的方式会影响算法的准确率。CART是一棵二叉树，采用二元切分法，每次把数据切成两份，分别进入左子树、右子树。而且每个非叶子节点都有两个孩子，所以CART的叶子节点比非叶子多1。相比ID3和C4.5，CART应用要多一些，既可以用于分类也可以用于回归。CART分类时，使用基尼指数（Gini）来选择最好的数据分割的特征，gini描述的是纯度，与信息熵的含义相似。CART中每一次迭代都会降低GINI系数。下图显示信息熵增益的一半，Gini指数，分类误差率三种评价指标非常接近。

3.回归树原理

回归树

4.决策树防止过拟合手段

防止过拟合

5.模型评估

保持方法
在保持（Holdout）方法中，将被标记的原始数据划分成两个不想交的集合，分别称为训练集合检验集。在训练数据集上归纳分类模型，在检验集上评估模型的性能。训练集和检验集的划分比例通常根据分析家的判断（例如，50-50，或者2/3作为训练集、1/3作为检验集）。分类器的准确率根据模型在检验集上的准确率估计。

随机二次抽样
可以多次重复保持方法来改进对分类器性能的估计，这种方法称作随机二次抽样（random subsampling）。设acciacci是第ii次迭代的模型准确率，总准确率是。随机二次抽样也会遇到一些与保持方法同样的问题，因为在训练阶段也没有利用尽可能多的数据。并且，由于它没有控制每个记录用于训练和检验的次数，因此，有些用于训练的记录使用的频率可能比其他记录高很多。

交叉验证
替代随机二次抽样的一种方法是交叉验证（cross-validation）。在该方法中，每个记录用于训练的次数相同，并且恰好检验一次。为了解释该方法，假设把数据分为相同大小的两个子集，首先，我们选择一个子集作训练集，而另一个作检验集，然后交换两个集合的角色，原先作训练集的现在做检验集，反之亦然，这种方法叫做二折交叉验证。总误差通过对两次运行的误差求和得到。在这个例子中，每个样本各作一次训练样本和检验样本。k折交叉验证是对该方法的推广，把数据分为大小相同的k份，在每次运行，选择其中一份作检验集，而其余的全作为训练集，该过程重复k次，使得每份数据都用于检验恰好一次。同样，总误差是所有k次运行的误差之和。

6.sklearn参数详解，Python绘制决策树

DecisionTrees

posted @ 2019-08-11 20:53 Robin_D 阅读(353) 评论(0) 收藏举报

刷新页面返回顶部

Robin_D