- map的输入由inputformat定制,这是一个java中的interface。要实现里面的两个方法,一个是inputsplit,recordreader,前者决定了怎么从最初的输入做partition,后者决定了怎么从读inputsplit。
- map的数量由inputsplit的数量决定,而reduce的数量则取决于partitioner接口的实现的数量决定。
- combine是在map后做的reduce。对于每个map真正的顺序应该是:先map,然后对map的结果根据key做sort,然后再对于sort的结果进行combine。
- map后面还包含多个步骤:shuffle--> merge sort --> secondary sort --> reduce。shuffle只负责把数据从各个机器上fetch过来;merge sort是把每个机器上来的数据做归并排序,在这里使用的比较函数 JobConf.setOutputKeyComparatorClass(Class),通常来说是针对整个key做排序的;secondary sort 使用的比较函数是JobConf.setOutputValueGroupingComparator(Class).,用来对于key相同的记录再做分组,每个分组本当做一个reduce函数的输入,如果不做这一步,那么就使用sort后key相同的记录作为一个reduce函数的输入;最后的reduce就是处理上面分组(如果没有secondary sort,则直接使用key分组)处理的结果。