hadoop Streaming的使用

1.streaming的作用

Haoop支持用其他语言来编程，需要用到名为Streaming的通用API。

Streaming主要用于编写简单，短小的MapReduce程序，可以通过脚本语言编程，开发更快捷，并充分利用非Java库。

HadoopStreaming使用Unix中的流与程序交互，从stdin输入数据，从stdout输出数据。实际上可以用任何命令作为mapper和reducer。数据流示意如下：

cat [intput_file] | [mapper] | sort | [reducer] > [output_file]

2.使用方法

使用如下命令：

hadoop jar contrib/streaming/hadoop-streaming-0.20.203.0.jar \

>-input cite75_99.txt \

> -output output \

>-mapper 'cut -f 2 -d ,' \

>-reducer 'uniq'

第一行表示使用的StreamingAPI，位于图中位置得jar包中

-input和 -output参数用于设置输入输出文件或目录

-mapper和-reducer通过引号中得参数进行设定，分别进行了截取第二列数据，

uniq进行了排序去重。

注意：每行是完全按照字母方式排序，因为Streaming完全采用文本方式处理数据，而不知道其他得数据类型。输出结果如下：

kqiao@ubuntu:~/hadoop-0.20.203.0$ hadoop fs -cat outputStreaming/part-00000 | head -10
"CITED"
1
10000
100000
1000006
1000007
1000011
1000017
1000026
1000033

......

3.用Streaming处理键值对

默认情况下，Streaming使用\t分离记录中得键和值，当没有\t时，整个记录被视为键，值为空白文本。

不同于AttributeMax.py为每个键寻找最大值，这次我们试着为每个国家找到专利声明数的平均值。（Hadoop包含得名为Aggregate包，可以为每个键寻找最大值）

（1)Streaming中得mapper通过STDIN读取一个分片，并将每一行提取为一个记录。Mapper可以选择是把每条记录翻译为一个键值对，还是一行文本

此步从输入文件到<k1,v1>

（2) 对于mapper输出的每一行，Streaming API将之翻译为用\t分隔的键值对，类似于MapReduce中的划分，可以用pationer来处理键。最终所有键一致的key/value进入相同reducer。

（3）没个reducer以键为基准排序键值对，如同在Java模式中，相同键的键值对被结组为一个键和一列值。reducer处理这些分组。

（4）在实践中，reducer的输出（STDOUT)被写入到一个文件中（由-output指定）

对AverageByAttributeMaper.py：

<<<<<<<<<<<<<<<<<<<Mapper daima>>>>>>>>>>>>>>>>>>>

无reducer方式运行时：-D mapred.reducer.tasks=0

输出由行组成：一个国家代码 \t 一个计数值，并且其顺序与输入记录一致

以IdentityReducer方式运行，设置-D mapred.reducer.tasks=1(这种方式只要不设置-reducer选项即可）

执行结束可以看到虽然每行的内容与上一个相同，但是顺序被重排，键相同的“结组”在一起。可以根据这些信息考虑自己的reducer设计：

AverageByAttributeReducer.py——将相同键的值求和计数，在遇到新的键或到文件尾时，计算前一个键的平均值并输出到STDOUT中。

<<<<<<<<<<<<<<<<<<<<<<Reducer daima>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

这时可以运行完整的MapReduce作业。会得到真正的平均值文件。

4.通过Aggregate包使用Streaming

Hadoop有一个成为Aggregate软件包，极大简化数据集的汇总统计。尤其在使用Streaming时。

在Streaming中Aggregate包作为Reducer做聚集统计，只需提供一个mapper处理记录并以特定格式输出。输出每行如下：

function:key\tvalue

function为值聚合函数的名称（由Aggregate包中预定义函数获得），接着一组键值对，值聚合函数列表如下：

如果要计算每年授权的专利数，考虑编写MapReduce程序的方法：

可以使mapper的输出将年设置为key，而value的值恒为1。这样reducer只需要对所有的1求和即可。使用基于Aggregate包的Streaming来实现：AttributeCount.py

#!/usr/bin/env python
import sys
index = int(sys.argv[1])
for line in sys.stdin:
    fields = line.split(",")
    print "LongValueSum:" + fields[index] + "\t" + "1"

关键语句：print "LongValueSum:" + fields[index] + "\t" + "1"。。按指定格式（ function:key\tvalue）打印到输出！

运行如下：

hadoop jar contrib/streaming/hadoop-streaming-0.20.203.jar  \
-file  AttributeCount.py    \
-input  apat63_99.txt    \
-output  output   \
-mapper 'AttributeCount.py 1'   \
-reducer aggregate

posted @ 2013-03-01 12:27 dandingyy 阅读(13220) 评论(0) 编辑收藏举报

刷新页面返回顶部

dandingyy

window.onload = function() { dp.SyntaxHighlighter.ClipboardSwf = 'https://files.cnblogs.com/dandingyy/clipboard.swf'; dp.SyntaxHighlighter.HighlightAll('code'); };

hadoop Streaming的使用

公告