代码改变世界

hadoop 执行python 注意的地方

2013-01-29 23:05  c#在路上  阅读(1474)  评论(0编辑  收藏  举报

1,命令行

bin/hadoop jar contrib/streaming/hadoop-streaming-1.0.4.jar -input input -output output11 -mapper 'teststd.py 10' -file /home/hadoop/teststd.py -jobconf mapred.reduce.tasks=1

/home/hadoop/teststd.py , 文件的目录,文件的权限为可读可写

2, 文件的内容
#!/usr/bin/python
import sys, random

for line in sys.stdin:
    if random.randint(1,100) <= int(sys.argv[1]):
        print line.strip()

必须使用文件头