摘要:
MR-Job默认的输入格式FileInputFormat为每一个小文件生成一个切片。CombineFileInputFormat通过将多个“小文件”合并为一个"切片"(在形成切片的过程中也考虑同一节点、同一机架的数据本地性),让每一个Mapper任务可以处理更多的数据,从而提高MR任务的执行速度。详... 阅读全文
摘要:
对于在一个MR-Job中使用多路径作为输入文件,一般有三种方法:1).多次调用,加载不同路径:import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.out... 阅读全文
摘要:
//MultipleOutputs类用于简化多文件输出The MultipleOutputs class simplifies writing output data to multiple outputs //案例一:在job默认的输出之外,附加自定义的输出.自定义的输出可以指定:输出格式以及 k... 阅读全文