MapReduce基本概念

相关参数:

配置文件路径

cacheArchive:文件为压缩文件
cacheFile

多路输出配置参数:

-outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat \   
-jobconf suffix.multiple.outputformat.filesuffix=file_path_1,file_path_2  \             
-jobconf suffix.multiple.outputformat.separator="#" \                        
  • 指定outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat
  • 指定输出文件名的前缀,所有需要输出的文件名必须通过该参数配置,否则job会失败
  • 设置value与文件名的分割符,默认为“#”,如果value本身含有“#”,框架会自动匹配至最后一个分隔符,用户亦可通过该参数重新设置其他的分隔符。
    注:

上面三个是必须参数,否则会报错

  • 当value为空时要在key值与"suffix.multiple.outputformat.separator"之间补充一个\t分隔符
  • 输出不能有空行
  • key和value值中不能有换行符

参考资料:
Hadoop MapReduce执行过程详解及MR中job参数及设置map和reduce的个数(带hadoop例子)
mapreduce(python版本)配置参数(压缩)
MapReduce工作笔记——Streaming多路输出
Hadoop概述与环境搭建
Hadoop Streaming 使用及参数设置
用python + hadoop streaming编写分布式程序

posted @   YTT77  阅读(25)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示
点击右上角即可分享
微信分享提示