mapreduce 多路输出

Streaming支持多路输出(SuffixMultipleTextOutputFormat)

如下示例:

hadoop streaming \

-input /home/mr/data/test_tab/ \

-output /home/mr/output/tab_test/out19 \

-outputformatorg.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat\ # 指定outputformat为org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat

-jobconf suffix.multiple.outputformat.filesuffix=a,c,f,abc,cde \ # 指定输出文件名的前缀，所有需要输出的文件名必须通过该参数配置，否则job会失败

-jobconf suffix.multiple.outputformat.separator="#"\ # 设置value与文件名的分割符，默认为“#”，如果value本身含有“#”，则可以通过该参数设置其他的分隔符

-mapper "cat" \

-reducer "sh reduce.sh" \

-file reduce.sh

注：标记为红色的参数必须设置，参数说明请见注释

Map或者reduce里需要在每个记录的reduce追加“#+文件名”

#!/bin/bash

while read line

key= $(echo$ line | awk -F' ' '{print $1}')

value= $(echo$ line | awk -F' ' '{print $2}')

if [ "$key" == "a" ]

then

echo" $key$ value#a"

if [ "$key" == "c" ]

then

echo " $key$ value#c"

if [ "$key" =="f" ]

then

echo " $key$ value#f"

if [ "$key" =="abc" ]

then

echo " $key$ value#abc"

if [ "$key" =="cde" ]

then

echo " $key$ value#cde"

done

posted on 2015-03-10 00:01 雨渐渐阅读(779) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 手把手教你在本地部署DeepSeek R1，搭建web-ui ，建议收藏！
· Spring AI + Ollama 实现 deepseek-r1 的API服务和调用
· 数据库服务器 SQL Server 版本升级公告
· 程序员常用高效实用工具推荐，办公效率提升利器！
· C#/.NET/.NET Core技术前沿周刊 | 第 23 期（2025年1.20-1.26）

历史上的今天：
2014-03-10 python中xrange与range的异同
2014-03-10 hadoop如何计算map数和reduce数（未读）

雨渐渐

mapreduce 多路输出

导航

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论