MapReduce基本概念
相关参数:
配置文件路径
cacheArchive:文件为压缩文件
cacheFile
多路输出配置参数:
-outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat \
-jobconf suffix.multiple.outputformat.filesuffix=file_path_1,file_path_2 \
-jobconf suffix.multiple.outputformat.separator="#" \
- 指定outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat
- 指定输出文件名的前缀,所有需要输出的文件名必须通过该参数配置,否则job会失败
- 设置value与文件名的分割符,默认为“#”,如果value本身含有“#”,框架会自动匹配至最后一个分隔符,用户亦可通过该参数重新设置其他的分隔符。
注:
上面三个是必须参数,否则会报错
- 当value为空时要在key值与"suffix.multiple.outputformat.separator"之间补充一个\t分隔符
- 输出不能有空行
- key和value值中不能有换行符
参考资料:
Hadoop MapReduce执行过程详解及MR中job参数及设置map和reduce的个数(带hadoop例子)
mapreduce(python版本)配置参数(压缩)
MapReduce工作笔记——Streaming多路输出
Hadoop概述与环境搭建
Hadoop Streaming 使用及参数设置
用python + hadoop streaming编写分布式程序