MapReduce基本概念
相关参数:
配置文件路径
cacheArchive:文件为压缩文件
cacheFile
多路输出配置参数:
-outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat \
-jobconf suffix.multiple.outputformat.filesuffix=file_path_1,file_path_2 \
-jobconf suffix.multiple.outputformat.separator="#" \
- 指定outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat
- 指定输出文件名的前缀,所有需要输出的文件名必须通过该参数配置,否则job会失败
- 设置value与文件名的分割符,默认为“#”,如果value本身含有“#”,框架会自动匹配至最后一个分隔符,用户亦可通过该参数重新设置其他的分隔符。
注:
上面三个是必须参数,否则会报错
- 当value为空时要在key值与"suffix.multiple.outputformat.separator"之间补充一个\t分隔符
- 输出不能有空行
- key和value值中不能有换行符
参考资料:
Hadoop MapReduce执行过程详解及MR中job参数及设置map和reduce的个数(带hadoop例子)
mapreduce(python版本)配置参数(压缩)
MapReduce工作笔记——Streaming多路输出
Hadoop概述与环境搭建
Hadoop Streaming 使用及参数设置
用python + hadoop streaming编写分布式程序
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示