摘要:
前面讲的 分区、分箱模式 都是不关心数据的顺序。 接下来 全排序、混排序模式 关心的是数据按照指定键进行并行排序。全排序解释; 排序在顺序结构程序中容易实现, 但是在MapReduce 中,或者说在并行编程中不易实现。这是典型的 “分治法”。 每个 reduce 将按照键对他的数据排序,但这种排序并不是全局意义上的排序。 这里想做的是全排序,记录是整个数据集按照顺序排列好的。作用: ... 阅读全文
摘要:
分箱目的: 将数据集中的每条记录都归档到一个 或 多个文件中。分箱与分区: 分享模式与分区模式很类似。 主要区别在于 分箱使用 Map 构建 而 分区需要用到 MapReduce 进行分区。 分箱好处是减少 reduce 阶段的工作量结构: Map阶段重写 setup方法。使用了 MultipleOutput 类, 通过该类将作业输出到多个不... 阅读全文