摘要: 一:Combiner概念 (1)Combiner是MR程序中Mapper和Reduce之外的一种组件 (2)Combiner组件的父类就是Reducer (3)Combiner和Reduce的区别主要在于运行位置 Combiner是在每一个MapTask所在的节点运行 Reduce是在接受全局所有M 阅读全文
posted @ 2020-03-22 19:18 拔丝小红薯 阅读(399) 评论(0) 推荐(0) 编辑
摘要: 一:排序概述 排序时是MapReduce框架最重要的操作之一 MapTask和ReduceTask均会对数据按照key进行排序,该操作是属于Hadoop的默认行为。任何应用程序中的数据均会被排序,不管你是否需要。 默认排序是按照字典顺序排序,实现该排序的方法是快速排序 二:排序分类 (1)全排序 只 阅读全文
posted @ 2020-03-22 19:05 拔丝小红薯 阅读(447) 评论(0) 推荐(0) 编辑
摘要: 一:每次从环形缓存区溢写的数据都会写到一组分区的某一个里面,最后通过归约排序将所有组的分区归成一组分区。配合设置ReduceTast的个数可以实现将数据最终写出到多个文件中。 二:默认分区是根据key的hasCode对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区里。 三 阅读全文
posted @ 2020-03-22 17:29 拔丝小红薯 阅读(1001) 评论(0) 推荐(0) 编辑