机器学习-决策树
一.简介
决策树学习是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树。
二.决策树的表示法
决策树通过把实例从艮节点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每一个结点指定了对实例的某个属性的测试,并且该结点的每一个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始,测试这个结点的属性,然后按照给定实例的属性值对应的树枝向下移动。然后这个过程在以新结点的根的子树上重复。
决策树对应表达式:
三. 举例
设D为用类别对训练元组进行的划分,则D的熵计算方法为:
其中pi表示第i个类别在整个训练集中出现的概率。
当按照特征A分割后,其期望信息为:
![](https://images2015.cnblogs.com/blog/1020600/201609/1020600-20160918205530490-1555183657.gif)
其中Di/D表示每一个D在整体训练集占的比例。
而信息增益即为两者的差值:
其中当 gain(A)
达到最大时,该特征便是最佳的划分特征,选中最佳特征作为当前的节点,随后对划分后的子集进行迭代操作。
首先计算四个属性的信息增益:
Gain(S,Outlook)=0.246
Gain(S,Humidity)=0.151
Gain(S,Wind)=0.048
Gain(S,Temperature)=0.029
根据信息增益标准,属性Outlook在训练样例上提供了对目标属性PlayTennis的最佳预测。
Ssunny ={D1,D2,D8,D9,D11}
Gain(Ssunny,Humidity)=0.970-(3/5)0.0-(2/5)0.0=0.970
Gain(Ssunny, Temperature)=0.970-(2/5)1.0-(2/5)1.0-(1/5)0.0=0.570
Gain(Ssunny ,Wind)=0.970-(2/5)1.0-(3/5)0.918=0.019