mapreduce 多路输出

Streaming支持多路输出(SuffixMultipleTextOutputFormat)

如下示例:

hadoop streaming \

-input /home/mr/data/test_tab/ \

-output /home/mr/output/tab_test/out19 \

-outputformatorg.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat\   # 指定outputformatorg.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat

-jobconf suffix.multiple.outputformat.filesuffix=a,c,f,abc,cde  \            # 指定输出文件名的前缀,所有需要输出的文件名必须通过该参数配置,否则job会失败

-jobconf suffix.multiple.outputformat.separator="#"\                        # 设置value与文件名的分割符,默认为“#”,如果value本身含有“#”,则可以通过该参数设置其他的分隔符

-mapper "cat" \

-reducer "sh reduce.sh" \

-file reduce.sh

注:标记为红色的参数必须设置,参数说明请见注释

Map或者reduce里需要在每个记录的reduce追加“#+文件名”

#!/bin/bash

while read line

do

    key=(echoline | awk -F' ' '{print $1}')

    value=(echoline | awk -F' ' '{print $2}')

    if [ "$key" == "a" ]

    then

        echo"keyvalue#a"

    fi

    if [ "$key" == "c" ]

        then

           echo "keyvalue#c"

       fi

       if [ "$key" =="f" ]

       then

           echo "keyvalue#f"

       fi

       if [ "$key" =="abc" ]

       then

           echo "keyvalue#abc"

       fi

       if [ "$key" =="cde" ]

       then

           echo "keyvalue#cde"

       fi

done

posted on   雨渐渐  阅读(779)  评论(0编辑  收藏  举报

编辑推荐:
· Linux glibc自带哈希表的用例及性能测试
· 深入理解 Mybatis 分库分表执行原理
· 如何打造一个高并发系统?
· .NET Core GC压缩(compact_phase)底层原理浅谈
· 现代计算机视觉入门之:什么是图片特征编码
阅读排行:
· 手把手教你在本地部署DeepSeek R1,搭建web-ui ,建议收藏!
· Spring AI + Ollama 实现 deepseek-r1 的API服务和调用
· 数据库服务器 SQL Server 版本升级公告
· 程序员常用高效实用工具推荐,办公效率提升利器!
· C#/.NET/.NET Core技术前沿周刊 | 第 23 期(2025年1.20-1.26)
历史上的今天:
2014-03-10 python中xrange与range的异同
2014-03-10 hadoop如何计算map数和reduce数(未读)

导航

< 2025年1月 >
29 30 31 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31 1
2 3 4 5 6 7 8
点击右上角即可分享
微信分享提示