决策树之——ID3算法及示例

0 前言

本文主要介绍决策树ID3算法，并举出构建示例帮助理解。
读者需要具备的知识：信息熵、条件熵、信息增益。
本文使用数据集为：游玩数据集 1.1节、西瓜数据集 1.2节。

1 ID3算法简述

ID3（Iterative Dichotomiser 3）算法是一种经典的决策树学习算法，由Ross Quinlan于1986年提出。该算法的主要目的是通过构建一个决策树模型来对样本数据进行分类。ID3算法的核心思想是基于信息增益（Information Gain）来选择最佳的属性作为决策树的节点，以此来实现对数据的划分。

2 算法流程

初始化：首先，算法将所有训练样本集放在根节点。
特征选择：对于当前节点，计算所有候选特征的信息增益。选择信息增益最大的特征作为当前节点的分裂特征。
节点分裂：根据所选特征的每个不同取值，将当前节点划分为多个子节点。每个子节点包含该特征取值下对应的所有样本。
递归构建：对于每个子节点，递归地执行步骤2和步骤3，直到满足停止条件（如所有样本属于同一类别、没有更多特征可供选择等）。
构建完成：最终，当所有节点都无法再进一步划分时，决策树构建完成。

注：ID3算法需要设定特征集阈值ε，设置阈值的主要作用是限制决策树的深度、防止过拟合、平衡模型复杂度和泛化能力。当最大信息增益小于阈值ε时，则设置为单节点，不进行分支，反之则递归地执行步骤2和步骤3。本文未考虑设置阈值。

3 例题一

数据集采用游玩数据集，由于样本数据较简单，例题并没有考虑设置阈值。
初始化，构建根节点。具体构建方法如下图(3-1)所示。

解释：计算出随机变量play的信息熵H(play)，再计算出每个特征的条件熵，得出每个特征的信息增益，选择最大的信息增益对应的属性为根节点，然后对根节点分裂，出现3条子枝。
递归构建，构建图3-1的D1。具体构建方法如下图(3-2)所示。

解释：上图是构建图3-1的D1，由于图3-1的D1表示的是数据集D在outlook=rainy的条件下的新数据集，D1数据集中的outlook属性都是rainy，故不需要再计算g(play,outlook)。
递归构建，构建图3-2的D2。具体构建方法如下图(3-3)所示。

解释：图3-3的windy节点构建完毕，递归构建humidity节点，仍按照算法流程计算信息增益。
构建完成。到此决策树已经构造完成。由于所给数据集构造的决策树较简单，相对于其他数据集可能并非如此，在构造复杂的决策树时，对每个子集重复上述方法，直到满足停止条件。