数据分析算法

决策树用于对数据集中的记录进行分类。

假设每条记录都含有若干条属性，决策树根据属性进行分类。

ID3算法

如何决定选取哪条属性来进行划分？判断条件是根据该属性划分后数据集的信息熵最小（信息熵越小表明数据越整齐）,也就是熵差值最大。

假设A属性共有n个取值，按照A划分后将获得n个分支，每个分支里的子数据集都删除了A属性。

递归地对分支里的数据集实施划分。最终达到不可分或者所有数据都是相同值为止。

这将生成一颗决策树。利用决策树的叶子节点进行分类

c4.5算法

ID3的扩展，区别：
1.选取划分属性时比较的是熵差值/分裂度
2.c4.5运用了剪枝算法，减少噪点数据造成的过适应

根据数据集的属性和每条记录的类别，判断新数据的类型。

计算数据点之间的距离，取最近的K个点中最多的类型作为新数据点的预测类型。
计算距离的方法distance = sqrt(delta(attributeX)**2 + delta(attributeY)**2 + delta(attributeX)**2 +...)

(待续)

posted on 2014-12-08 16:30 freestyleking 阅读(318) 评论(0) 收藏举报

刷新页面返回顶部

holy code