海量数据处理技术学习
摘要:海量数据处理的常用技术可分为: 外排序:因为海量数据无法全部装入内存,所以数据的大部分存入磁盘中,小部分在排序需要时存入内存。 MapReduce:分布式处理技术 hash技术:以Bloom filter技术为代表 外排序:主要适用于大数据的排序、去重。 分布式处理技术:MapReduce 技术思想
阅读全文
posted @
2016-03-11 22:13
松伯
阅读(633)
推荐(0) 编辑
算法学习
摘要:决策树是一种树状结构,它的每一个叶节点对应一个分类,非叶节点对应在某个属性上的划分,根据样本在该属性上的不同取值将其划分为若干子集。构造决策树的核心问题是在每一步如何选择适当的属性对样本进行划分。 ID3算法 1、对当前样本集合计算所有属性的信息增益。 2、选择信息增益最大的属性作为测试属性,把测试
阅读全文
posted @
2016-03-07 22:18
松伯
阅读(210)
推荐(0) 编辑