机器学习系列-决策树

决策树分为两种：分类树和回归树，分别对离散和连续变量做决策；

使用决策树进行分类分为两步：

第 1 步：利用训练集建立并精化一棵决策树，建立决策树模型。这个过程实际上是一个从数据中获取知识，进行机器学习的过程。

第 2 步：利用生成完毕的决策树对输入数据进行分类。对输入的记录，从根结点依次测试记录的属性值，直到到达某个叶结点，从而找到该记录所在的类

问题的关键是建立一棵决策树。这个过程通常分为两个阶段：

(1) 建树（ Tree Building ）：决策树建树算法见下，可以看得出，这是一个递归的过程，最终将得到一棵树。

(2) 剪枝（ Tree Pruning ）：剪枝是目的是降低由于训练集存在噪声而产生的起伏。

优点:1)可以生成可以理解的规则。

2)计算量相对来说不是很大。

3)可以处理多种数据类型。

4)决策树可以清晰的显示哪些字段较重要。

缺点:1)对连续性的字段比较难预测。

2)有时间顺序的数据，要很多预处理工作。

3)当类别太多时，错误可能就会增加较快。

经典的决策树算法有ID3算法：

接下来会给出用本人用weka实现的例子。

posted @ 2014-05-15 16:01 luck_net 阅读(138) 评论(0) 编辑收藏举报

刷新页面返回顶部

luck_net