MapReduce实现单词统计

 开发工具:IDEA

mapreduce实现思路:

Map阶段:

a) HDFS的源数据文件中逐行读取数据

b) 将每一行数据切分出单词

c) 为每一个单词构造一个键值对(单词,1)

d) 将键值对发送给reduce

 

Reduce阶段

a) 接收map阶段输出的单词键值对

b) 将相同单词的键值对汇聚成一组

c) 对每一组,遍历组中的所有“值”,累加求和,即得到每一个单词的总次数

d) (单词,总次数)输出到HDFS的文件中

代码实现:

porm.xml导入依赖:

 

导入包:

Map端:

Reduce端:

主函数:

 

posted @ 2018-12-06 18:12  dummyly  阅读(2827)  评论(0编辑  收藏  举报