摘要:
(1)经典之王:单词计数-这个是MapReduce的经典案例,经典的不能再经典了!(2)数据去重-"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。(3)排序:按某个Key进行升序或降序排列 阅读全文
摘要:
首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行;从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照key进行排序和分组。在一些特定的数据文件中,不一定都是类似于WordCount单次统计这种规范的数据,比如下面这类数据,它虽然只有两列,但是却有一定的实践意义。 阅读全文