MapReduce基本概念

相关参数:

配置文件路径

cacheArchive:文件为压缩文件
cacheFile

多路输出配置参数:

-outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat \   
-jobconf suffix.multiple.outputformat.filesuffix=file_path_1,file_path_2  \             
-jobconf suffix.multiple.outputformat.separator="#" \                        
  • 指定outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat
  • 指定输出文件名的前缀,所有需要输出的文件名必须通过该参数配置,否则job会失败
  • 设置value与文件名的分割符,默认为“#”,如果value本身含有“#”,框架会自动匹配至最后一个分隔符,用户亦可通过该参数重新设置其他的分隔符。
    注:

上面三个是必须参数,否则会报错

  • 当value为空时要在key值与"suffix.multiple.outputformat.separator"之间补充一个\t分隔符
  • 输出不能有空行
  • key和value值中不能有换行符

参考资料:
Hadoop MapReduce执行过程详解及MR中job参数及设置map和reduce的个数(带hadoop例子)
mapreduce(python版本)配置参数(压缩)
MapReduce工作笔记——Streaming多路输出
Hadoop概述与环境搭建
Hadoop Streaming 使用及参数设置
用python + hadoop streaming编写分布式程序

posted @ 2022-12-23 10:09  YTT77  阅读(22)  评论(0编辑  收藏  举报