决策树可以使用不熟悉的数据集合,并从中提取出一系列的规则(如if...else),根据数据集创建规则的过程,就是机器学习的过程。专家系统中经常使用决策树。
一、基本思想:分而治之的策略
决策树的生成是一个递归过程;
对于属性值是离散值的情况,结点生成问题转化为:从当前属性集合中选择哪种属性(作为分支结点)
何为“最优划分属性”? 即属性选择的依据
所选属性下,(分支结点)所包含的样本尽可能属于同一类别,通俗地说就是属性的“区分度”强,属性的“纯度”高;
二、划分选择
信息增益:基于“信息熵”;
典型算法:
ID3:信息增益
C4.5:增益率
CART:“基尼指数”
三、防止“过拟合”
剪枝:包括“预剪枝”、“后剪枝”
四、连续与缺失值处理