【sjj】[论文笔记]云计算下SPRINT并行算法研究

《云计算下SPRINT并行算法研究》张春艳《软件》201第31卷第11期

论文的主要内容是：在云计算的Hadoop集群框架和数据挖掘技术中的 SPRINT 分类算法的基础上。详细描述SPRINT并行算法在 Hadoop中的MapReduce编程模型上的执行流程。并利用分折出的决策树模型对输入数据进行分类。

名词：map-reduce,map就是将一个任务分解成为多个任务。reduce就是将分解后多任务处理的结果汇总起来。得出最后的分析结果。

主要的数学公式：

1、分裂指数是属性分裂规则优劣程度的一个度量，Gini指数方法能够有效地搜索最佳分裂点。提供最小Gini指数的分割具有最大信息增益。被选为最佳分割。在 SPRINT算法中采用了 Gini指数方法，这对于生成一棵好的决策树至关重要。

（1）如果集合 T包含 n个类别的 m条记录，则其

Gini指数为：

Gini（T）=1- Σ P_j²

j=1

其中P 为类 J出现的频率。

根据以上方法。得到所有属性的候选最佳分裂点。选择具有最小 Gini值的侯选最佳分裂点。即为最终的最佳分裂点。相应属性为当前分裂属性。

（2）“信息增益”（Information Gain）来衡量一个属性区分以上数据样本的能力。信息增益量越大，这个属性作为一棵树的根节点就能使这棵树更简洁。

样本的熵：Entropy(S) =-(p+)*log(p+)-(p-)*log(p-)

其中，p+、p-分别为正例和负例占总记录的比例。

属性A的信息增益：Gain(A)=Entropy(S)-( p1)*Entropy(A1)-( p2)*Entropy(A2)

p1,p2分别是属性A取值A1，A2占得比例。

根据以上方法，得到所有属性的信息增益，根据信息增益最大化的原则选择信息增益最大的属性作为根节点。

疑问：

（1）reduce操作。对于连续属性要对属性值进行从小到大排序。排序同时生成直方图，初始阶段为 0，这里指什么为0？为什么要排序？

posted @ 2011-11-05 16:15 浙大软院论文交流阅读(385) 评论(0) 收藏举报

刷新页面返回顶部