机器学习系列-决策树

决策树分为两种:分类树和回归树,分别对离散和连续变量做决策;

使用决策树进行分类分为两步: 

第 1 步:利用训练集建立并精化一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。 

第 2 步:利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根结点依次测试记录的属性值,直到到达某个叶结点,从而找到该记录所在的类

问题的关键是建立一棵决策树。这个过程通常分为两个阶段: 

(1) 建树( Tree Building ):决策树建树算法见下,可以看得出,这是一个递归的过程,最终将得到一棵树。 

(2) 剪枝( Tree Pruning ):剪枝是目的是降低由于训练集存在噪声而产生的起伏。 

优点:1)可以生成可以理解的规则。

          2)计算量相对来说不是很大。

          3)可以处理多种数据类型。

          4)决策树可以清晰的显示哪些字段较重要。

缺点:1)对连续性的字段比较难预测。

          2)有时间顺序的数据,要很多预处理工作。

          3)当类别太多时,错误可能就会增加较快。

经典的决策树算法有ID3算法:

接下来会给出用本人用weka实现的例子。

posted @ 2014-05-15 16:01  luck_net  阅读(138)  评论(0编辑  收藏  举报