摘要: 首先需要明确的是,hadoop里的key一定要是可排序的,要么key自身实现了WritableComparator接口,要么有一个排序类可以对key进行排序。如果key本身不实现WritableComparator接口,而是由另外的一个工具类(实现RawComparator接口)来提供排序的话,需要 阅读全文
posted @ 2018-01-28 22:42 李华东 阅读(824) 评论(0) 推荐(0) 编辑
摘要: Shuffle的本意是洗牌、混乱的意思,类似于java中的Collections.shuffle(List)方法,它会随机地打乱参数list里的元素顺序。MapReduce中的Shuffle过程。所谓Shuffle过程可以大致的理解成:怎样把map task的输出结果有效地传送到reduce输入端。 阅读全文
posted @ 2018-01-28 22:21 李华东 阅读(258) 评论(0) 推荐(0) 编辑