2019 年 5月 17 日随笔档案 - Yr-Zhang

MapReduce的自定义排序、分区和分组

摘要：自定义排序（WritableComparable）当写mr程序来处理文本时，经常会将处理后的信息封装到我们自定义的bean中，并将bean作为map输出的key来传输而mr程序会在处理数据的过程中（传输到reduce之前）对数据排序（如：map端生成的文件中的内容分区且区内有序）。操作：自定阅读全文

posted @ 2019-05-17 23:28 Yr-Zhang 阅读(2204) 评论(0) 推荐(0) 编辑

MapReduce使用记录之Combiner

摘要： MapReduce中Combiner的作用和用法作用： ①每一个map可能会产生大量的输出，Combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。 ②Combiner最基本是实现本地key的归并，Combiner具有类似本地的reduce功能。优点：如果不阅读全文

posted @ 2019-05-17 22:40 Yr-Zhang 阅读(451) 评论(0) 推荐(0) 编辑

mapreduce的初识

摘要： MapReduce进程一个完整的mapreduce程序在分布式运行时有三类实例进程：1）MrAppMaster：负责整个程序的过程调度及状态协调2）MapTask：负责map阶段的整个数据处理流程3）ReduceTask：负责reduce阶段的整个数据处理流程理论（后续补齐）： MapReduce 阅读全文

posted @ 2019-05-17 22:28 Yr-Zhang 阅读(160) 评论(0) 推荐(0) 编辑

☆☆☆★☆☆☆

导航

公告

MapReduce的自定义排序、分区和分组

MapReduce使用记录之Combiner

mapreduce的初识