随笔分类 -  Hadoop

摘要:相关参数: 配置文件路径 cacheArchive:文件为压缩文件 cacheFile 多路输出配置参数: -outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat \ -jobconf suffix.mult 阅读全文
posted @ 2022-12-23 10:09 YTT77 阅读(23) 评论(0) 推荐(0) 编辑
摘要:map.py脚本如下: """ wordcount单词统计 map阶段 """ import sys def map(): for line in sys.stdin: # 从标准输入里面读取的,是一个字符串格式 words = line.split("\t") for word in words: 阅读全文
posted @ 2022-12-20 10:42 YTT77 阅读(24) 评论(0) 推荐(0) 编辑