决策树

1.熟悉的几种决策树的实现有CART,ID3,C4.5 几种不同的实现的区别与联系？

对于给定的数据集，我们将其构建成一颗树形结构，我们可以得到无数颗树，那么我们如何根据我们的需求去选择我们的目标树？

我们引入熵的概念：

熵表示：内在的混乱程度，熵越大，越混乱

关于熵越大越混乱，可以从数学的角度去理解，可以带入不同的样本集试着计算，比如所有的样本都为同一类别，那么对应的|y|=1，p=1,所以Ent=0

如果是两种类别各占50%，那么p=0.5, |y| = 2,Ent=1。

如上图所示，我们分类问题达到的一种目标就是把不同类别的样本很好的分类，所以熵可以作为我们分类问题的评价标准，帮我们找到对于数据集最理想的分割方式

引入上面的概念后，我们首先来谈谈ID3，ID3就是一种基于熵的变化的一种方式来决定最终分割的结果的，我们称这种方式为信息增益，下面我们来举西瓜书上面的一个例子来讨论

引入信息增益的概念:

树形结构就是将原来的在同一空间的样本数据划分到不同的样本空间，那么信息增益就是分裂之前的混乱程度-分裂之后的混乱程度，那么我们期望的是分裂之后纯度更高，越不混乱，所以信息增益越大，分裂之后的结果越好。上式中的Dv为分裂之后的某个子节点的样本数量，D为总样本数量

我们举下面的一个例子来计算一下(例子来源西瓜书):

对于上面的数据集:

如果我们按照色泽来进行第一次分裂的话，有D1=(色泽为青绿)，D2=(色泽为乌黑)，D3=(色泽为浅白)

得到最终的结果为

因为每个子节点都是一个独立的样本空间，所以要加上权重

上面的例子对应于ID3的分裂标准，并且我们举例子是以色泽作为首选特征的，但是这不一定是最优的，实际上会尝试所有的特征取最优的，进行本次分裂。下一次的分裂会基于上一次分裂的基础之上尝试找到最优的分裂结果，这也侧面的说明了，决策树分裂的过程为局部最优。(补充:如果对应的树连续性的变量可适当的进行离散化来处理，降低计算成本)

对应上面的数据集，大家有没有发现，如果按照编号划分，第一次分裂会分为叶子节点，这时候信息增益是最大的，但是会出现一个问题，对应于一个新的样本，编号为18时，模型不知道怎么去划分，这样的决策树不具有泛化能力，无法对新的样本进行有效的预测。信息增益准则对可取数值数目较多的属性有所偏好，为了减少这种偏好带来的不利影响，引入C.5决策树算法，本质上的区别就是ID3使用信息增益来作为分裂的标准，而C.5使用增益率来作为分裂的标准，解决了ID3容易出现的问题。。。。。。。。

增益率的计算：