决策树算法

机器学习算法完整版见fenghaootong-github

决策树（Decision Trees）

构建决策树三个步骤：

特征选择
决策数生成
决策数剪枝

特征选择

熵(entropy)

熵是表示随机变量不确定性的度量。设X是一个取有限个值的离散随机变量，其概率分布为

$P (X = x_{i}) = p_{i}, i = 1, 2, 3, . . ., n$

随机变量的熵定义为:

$H (X) = - \sum_{i = 1}^{n} p_{i} l o g (p_{i})$

熵越大，随机变量的不确定性就越大

条件熵(conditional entropy）

设有随机变量（X，Y），联合概率分布为：

$P (X = x_{i} ， Y = y_{i}) = p_{i j}, i = 1, 2, 3, . . ., n; j = 1, 2, 3, . . ., n$

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X)，定义为X给定条件下Y的条件概率分布的熵对X的数学期望:

$H (Y | X) = \sum_{i = 1}^{n} p_{i} H (Y | X = x_{i})$

信息增益（information gain）（ID3算法）

信息增益 = entroy(前) - entroy(后)

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即

$g (D, A) = H (D) - H (D | A)$

根据信息增益准则的特征选择方法是：对训练数据集（或子集）计算其每个特征的信息增益，选择信息增益最大的特征。
计算信息增益的算法如下：

输入：训练数据集D和特征A；
输出：特征A对训练数据集D的信息增益g(D,A).

1)计算数据集D的经验熵H(D)

$H (D) = - \sum_{k = 1}^{K} \frac{| C_{k} |}{D} l o g_{2} \frac{| C_{k} |}{D}$

2)计算特征A对数据集D的经验条件熵H(D|A)

$H (D | A) = \sum_{i = 1}^{n} \frac{| D_{i} |}{D} H (D_{i}) = - \sum_{i = 1}^{n} \frac{| D_{i} |}{D} \sum_{k = 1}^{K} \frac{| D_{i k} |}{D_{i}} l o g_{2} \frac{| D_{i k} |}{D_{i}}$

3)计算信息增益

$g (D, A) = H (D) - H (D | A)$

信息增益比（information gain ratio）（C4.5）

特征A对训练数据集D的信息增益比 $g_{R} (D, A)$ 定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵 $H_{A} (D)$ 之比，即

信息增益比 = 惩罚参数 * 信息增益

$g_{R} (D, A) = \frac{g (D, A)}{H_{A} (D)}$
$H_{A} (D) = - \sum_{i = 1}^{n} \frac{| D_{i} |}{D} l o g_{2} \frac{| D_{i} |}{D}$

基尼指数(CART)

基尼指数（基尼不纯度）= 样本被选中的概率 * 样本被分错的概率

$G i n i (D) = \sum_{k = 1}^{K} D_{k} (1 - D_{k}) = 1 - \sum_{k = 1}^{K} D_{k}^{2}$

$D_{k}$ 表示选中的样本属于k类别的概率

决策树生成

两种决策树学习的生成算法：ID3、C4.5和CART

CART和C4.5的主要区别：

C4.5采用信息增益率来作为分支特征的选择标准，而CART则采用Gini系数；
C4.5不一定是二叉树，但CART一定是二叉树。

决策树算法：

$G (x) = \sum_{c = 1}^{C} [[b (x) = c]] \cdot G_{c} (x)$

$G (x)$ :为完整的树
$b (x)$ : 每个分支的条件
$G_{c} (x)$ : 表示第c个分支下的子树

决策数剪枝

训练出得决策树存在过度拟合现象——决策树过于针对训练的数据，专门针对训练集创建出来的分支，其熵值可能会比真实情况有所降低。

如何剪枝

人工设置一个信息增益的阀值，自下而上遍历决策树，将信息增益低于该阀值的拆分进行合并

决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数来实现。

设树T的叶结点个数为 $| T_{f} |$ ，t是树T的叶结点，该叶结点有 $D_{t}$ 个样本点，其中k类样本点有 $D_{t k}$ 个，k=1,2,…,K, $H (T)$ 为叶结点t上的经验熵，α≥0为参数，则决策树学习的损失函数可以定义为：

$C_{α} (T) = \sum_{t = 1}^{| T_{f} |} N_{t} H (t) + α | T_{f} | H (t) = - \sum_{k = 1}^{K} \frac{D_{t k}}{D_{t}} l o g_{2} \frac{D_{t k}}{D_{t}}$

令：

$C (T) = \sum_{t = 1}^{| T_{f} |} N_{t} H (t) = - \sum_{t = 1}^{| T_{f} |} \sum_{k = 1}^{K} D_{t k} l o g_{2} \frac{D_{t k}}{D_{t}}$

则 $C_{α} (T) = C (T) + α | T_{f} |$

决策树应用实例

决策树应用实例

posted on 2018-03-07 15:14 一小白阅读(394) 评论(0) 编辑收藏举报