随笔分类 - Hadoop
摘要:相关参数: 配置文件路径 cacheArchive:文件为压缩文件 cacheFile 多路输出配置参数: -outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat \ -jobconf suffix.mult
阅读全文
摘要:map.py脚本如下: """ wordcount单词统计 map阶段 """ import sys def map(): for line in sys.stdin: # 从标准输入里面读取的,是一个字符串格式 words = line.split("\t") for word in words:
阅读全文