数据挖掘(三)——决策树

一、概念

一张图就可以理解决策树是什么

图中的属性有三种：No Surfacing （水下是否可生存）、Filppers（有无脚蹼）、Fish（鱼），通常我们通过前两个属性来判断第三个属性，判断到底是不是鱼。所以

第三个属性这里就称它为决策属性

1、将所有数据看作是一个节点

2、计算信息熵选择出最好的分割点（如图中的No Surfacing或Filppers）

3、分割数据（假如分成两份数据子集A和B），看数据子集中的决策属性是否相同，相同则不继续分

4、不相同则继续分，回到步骤2，直到数据足够纯为止。

检测数据集中每个子项是否属于同一个分类：

　　如果是：return 类标签

否则：

寻找划分数据集最好的特征

划分数据集

创建分支节点

for每个划分的子集

调用本函数并增加返回结果到分支节点

return 分支节点

[1] 《机器学习实战》

[2] 《数据挖掘导论》

posted @ 2016-01-02 21:01 清泉白石阅读(398) 评论(0) 编辑收藏举报

刷新页面返回顶部