数据挖掘——决策树分类

决策树分类是数据挖掘中分类分析的一种算法。顾名思义，决策树是基于“树”结构来进行决策的，是人类在面临决策问题时一种很自然的处理机制。例如下图一个简单的判别买不买电脑的决策树：

下图是一个测试数据集，我们以此数据集为例，来看下如何生成一棵决策树。

决策树分类的主要任务是要确定各个类别的决策区域，或者说，确定不同类别之间的边界。在决策树分类模型中，不同类别之间的边界通过一个树状结构来表示。

通过以上分析，我们可以得出以下几点：

最大高度=决策属性的个数
树越矮越好
要把重要的、好的属性放在树根

因此，决策树建树算法就是：选择树根的过程

第一步，选择属性作为树根

比较流行的属性选择方法：信息增益

信息增益最大的属性被认为是最好的树根

在选择属性之前，我们先来了解一个概念：熵什么是熵？什么是信息？如何度量他们？

下面这个文章通俗易懂的解释了这个概念

http://www.360doc.com/content/19/0610/07/39482793_841453815.shtml

熵用来表示不确定性的大小

信息用来消除不确定性

实际上，给定训练集S，信息增益代表的是在不考虑任何输入变量的情况下确定S中任一样本所属类别需要的信息（以消除不确定性）与考虑了某一输入变量X后确定S中任一样本所属类别需要的信息之间的差。差越大，说明引入输入变量X后，消除的不确定性，该变量对分类所起的作用就越大，因此被称为是好的分裂变量。换句话说，要确定S中任一样本所属类别，我们希望所需要的信息越少越好，而引入输入变量X能够减少分类所需要的信息，因此说输入变量X为分类这个数据挖掘任务带来了信息增益。信息增益越大，说明输入变量X越重要，因此应该被认为是好的分裂变量而优先选择。

因此，计算信息增益的总的思路是：

1) 首先计算不考虑任何输入变量的情况下要确定S中任一样本所属类别需要的熵Entropy(S)；

2) 计算引入每个输入变量X后要确定S中任一样本所属类别需要的熵Entropy (X,S);

3) 计算二者的差，Entropy (S) - Entropy (X, S)，此即为变量X所能带来的信息（增益），记为Gain(X,S)。

结合上面对于熵的解释的文章里，我们能得出求熵的公式：