机器学习系列-决策树
决策树分为两种:分类树和回归树,分别对离散和连续变量做决策;
使用决策树进行分类分为两步:
第 1 步:利用训练集建立并精化一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。
第 2 步:利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根结点依次测试记录的属性值,直到到达某个叶结点,从而找到该记录所在的类
问题的关键是建立一棵决策树。这个过程通常分为两个阶段:
(1) 建树( Tree Building ):决策树建树算法见下,可以看得出,这是一个递归的过程,最终将得到一棵树。
(2) 剪枝( Tree Pruning ):剪枝是目的是降低由于训练集存在噪声而产生的起伏。
优点:1)可以生成可以理解的规则。
2)计算量相对来说不是很大。
3)可以处理多种数据类型。
4)决策树可以清晰的显示哪些字段较重要。
缺点:1)对连续性的字段比较难预测。
2)有时间顺序的数据,要很多预处理工作。
3)当类别太多时,错误可能就会增加较快。
经典的决策树算法有ID3算法:
接下来会给出用本人用weka实现的例子。