机器学习-决策树

一.简介

  决策树学习是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树。

二.决策树的表示法

  决策树通过把实例从艮节点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每一个结点指定了对实例的某个属性的测试,并且该结点的每一个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始,测试这个结点的属性,然后按照给定实例的属性值对应的树枝向下移动。然后这个过程在以新结点的根的子树上重复。

决策树对应表达式:

三. 举例

        设D为用类别对训练元组进行的划分,则D的熵计算方法为:

        其中pi表示第i个类别在整个训练集中出现的概率。

        当按照特征A分割后,其期望信息为:

        其中Di/D表示每一个D在整体训练集占的比例。

        而信息增益即为两者的差值:

        其中当 gain(A) 达到最大时,该特征便是最佳的划分特征,选中最佳特征作为当前的节点,随后对划分后的子集进行迭代操作。

        首先计算四个属性的信息增益:

            Gain(S,Outlook)=0.246

            Gain(S,Humidity)=0.151

            Gain(S,Wind)=0.048

            Gain(S,Temperature)=0.029

        根据信息增益标准,属性Outlook在训练样例上提供了对目标属性PlayTennis的最佳预测。

        Ssunny ={D1,D2,D8,D9,D11}

        Gain(Ssunny,Humidity)=0.970-(3/5)0.0-(2/5)0.0=0.970

        Gain(Ssunny, Temperature)=0.970-(2/5)1.0-(2/5)1.0-(1/5)0.0=0.570

        Gain(Ssunny ,Wind)=0.970-(2/5)1.0-(3/5)0.918=0.019

 

posted @ 2016-09-18 20:19  BelFuture  阅读(435)  评论(0编辑  收藏  举报
The horizon of life is broadened chiefly by the enlargement of the heart.