统计学习方法：决策树（1）

作者：桂。

时间：2017-05-06 08:39:37

链接：http://www.cnblogs.com/xingshansi/p/6815772.html

前言

还是李航的《统计学习方法》，主要是决策树的内容，主要包括ID3、C4.5以及对应的剪枝方法。内容为自己的学习记录，可能读起来会前言不搭后语。

一、决策树概念

决策就是选择：

二、特征选择

根据决策树可以看出，根蒂、触感、色泽等都是特征，就像生活中很多事情要处理，不能同时兼顾，一些人给出了坐标轴的思路：

这也是一个决策树，并给出了感性的评价准则，从而决定了特征（待办事项）的先后顺序。特征的选择也依赖一定的准则，只不过不再是感性而是可以量化的，两种常用的准则分别是：信息增益、信息增益比，信息增益对应ID3算法，信息增益比队医C4.5算法。

三、决策树基本算法

　　A-ID3算法

首先给出熵的定义，X是一个取值有效的离散随机变量，其概率密度：

对应的熵：

熵衡量的是不确定性，越不确定信息量就越大。

在给出变量Y在给定X时的条件熵：

这就引出了信息增益的概念：

想一想：原始的信息量，减去基于先验知识A的信息量，得到的就是信息增益。比如一开始选工作一片茫然，工作的信息量就非常大，一旦确定了所学的专业（A），很多人考虑的工作面就窄了。这个缩小的工作面就是信息增益，如果A是自己的身高呢，工作面缩小的可能小，如果A是家庭、所学专业，工作面缩小的就大一些，可见不同特征（A）的重要程度不同，它的直接体现就是信息增益。

信息增益的求解算法：

利用求解的信息增益，也就是重要程度，先做重要事情，这个时候特征就有了不同的优先级，决策树也就一步步构建出来了。

基于信息增益的ID3算法：

　　B-C4.5算法

C4.5是基于信息增益比，为什么要引入信息增益比呢？

原因：如果一个特征，决定的选择分支很多（如上文图中的纹理：3个），有些决定的相对较少（如触感：2个），这个差别有的更大，即使影响较小，但由于波及类别多，显得信息增益大，这是不合理的。因此希望对它进行一个的约束。

回顾一下谱聚类的思路：

直接图割的话，准则函数：

图割中也有最小割的问题：

一个自然的想法就是，类似为了防止过拟合而添加正则项一样，可以添加新的限定，这就是谱聚类的思想。但限定并不唯一指定：

类似的，只要增加一个类别多的反向约束即可，这是信息增益比的出发点，具体定义：

其中，H_A(D)就是上面公式的H（D）.特征决定的选择越多，对应的熵就越大，从而形成了反向约束。

从而引出C4.5算法：

　　C-树的剪枝

首先看一看决策树整体的熵：

其中树T的叶节点个数为|T|。t是树T的叶节点，该叶节点有个样本点，其中k类的样本点有个，如果感觉这个公式莫名其妙，展开来看一看：

其中是常数，乘不乘都不影响最终结果。对于离散随机变量X求均值，一般就是p*X可能取值，再求和。上面的C（T）其实就是不同节点熵的均值呀。为了防止过拟合，就是防止叶节点过多，添加约束项：

这就完成了剪枝的准则函数。给出具体实现思路：

对应的效果类似这样：

参考：

李航《统计学习方法》

posted @ 2017-05-06 09:38 LeeLIn。阅读(1401) 评论(0) 编辑收藏举报

刷新页面返回顶部