机器学习-决策树

一.简介

　　决策树学习是一种逼近离散值目标函数的方法，在这种方法中学习到的函数被表示为一棵决策树。

二.决策树的表示法

　　决策树通过把实例从艮节点排列到某个叶子结点来分类实例，叶子结点即为实例所属的分类。树上的每一个结点指定了对实例的某个属性的测试，并且该结点的每一个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始，测试这个结点的属性，然后按照给定实例的属性值对应的树枝向下移动。然后这个过程在以新结点的根的子树上重复。

决策树对应表达式：

三. 举例

设D为用类别对训练元组进行的划分，则D的熵计算方法为：

其中pi表示第i个类别在整个训练集中出现的概率。

当按照特征A分割后，其期望信息为：

其中Di/D表示每一个D在整体训练集占的比例。

而信息增益即为两者的差值：

其中当 gain(A) 达到最大时，该特征便是最佳的划分特征，选中最佳特征作为当前的节点，随后对划分后的子集进行迭代操作。

首先计算四个属性的信息增益：

Gain(S,Outlook)=0.246

Gain(S,Humidity)=0.151

Gain(S,Wind)=0.048

Gain(S,Temperature)=0.029

根据信息增益标准，属性Outlook在训练样例上提供了对目标属性PlayTennis的最佳预测。

S_sunny={D1,D2,D8,D9,D11}

Gain(S_sunny,Humidity)=0.970-(3/5)0.0-(2/5)0.0=0.970

Gain(S_sunny,Temperature)=0.970-(2/5)1.0-(2/5)1.0-(1/5)0.0=0.570

Gain(S_sunny,Wind)=0.970-(2/5)1.0-(3/5)0.918=0.019

posted @ 2016-09-18 20:19 BelFuture 阅读(435) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

The horizon of life is broadened chiefly by the enlargement of the heart.