摘要: 排序(WritableComparable) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.排序概述 排序是MapReduce框架中最重要的操作之一。 MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop默认行为。任何应用程序中的数据均会被 阅读全文
posted @ 2020-03-19 23:53 JasonYin2020 阅读(702) 评论(0) 推荐(0) 编辑
摘要: 分区(Partitioner) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 分区可以决定MapTask的处理的数据每一组<K,V>去往哪个ReduceTask。默认是HashPartition哟~ 一.查看默认的Partition 1>.测试代码 package cn.org. 阅读全文
posted @ 2020-03-19 21:42 JasonYin2020 阅读(596) 评论(0) 推荐(0) 编辑
摘要: MapReduce全流程 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.MapReduce全流程概述 假设有一个文件有2G的文件需要处理,且文件的块大小默认是128MB,接下来我们对MapReduce基于YARN的全流程进行分析.其大致流程如下: 1>.客户端在submit( 阅读全文
posted @ 2020-03-19 00:32 JasonYin2020 阅读(376) 评论(0) 推荐(0) 编辑