摘要: robby_map.py.bak #!/bin/python#encoding=utf-8import sysimport osimport timeMAP_COUNT=23def map_process(istream, ostream) :# print "HERE" if (len(sys... 阅读全文
posted @ 2013-07-22 22:31 小尼人00 阅读(154) 评论(0) 推荐(0) 编辑
摘要: hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据... 阅读全文
posted @ 2013-07-22 14:51 小尼人00 阅读(206) 评论(0) 推荐(0) 编辑
摘要: Hadoop Streaming中的大文件和档案任务使用-cacheFile和-cacheArchive选项在集群中分发文件和档案,选项的参数是用户已上传至HDFS的文件或档案的URI。这些文件和档案在不同的作业间缓存。用户可以通过fs.default.name.config配置参数的值得到文件所在... 阅读全文
posted @ 2013-07-22 14:17 小尼人00 阅读(1000) 评论(0) 推荐(0) 编辑
摘要: streaming把reduce的输出作为一个任务的最终输出,输出文件形如: part-00000、part-00001…… 文件个数为reduce任务个数但是,有的时候,我们有多路输出的需求,eg:一部分数据作为下一个mapreduce任务的输入,另一部分数据直接供下游任务抓取,此时,我们就需要使... 阅读全文
posted @ 2013-07-22 13:33 小尼人00 阅读(814) 评论(0) 推荐(0) 编辑