MapReduce程序实现词频统计

目录

一、要求:

input:

output:

二、内容:

1、完整的词频统计程序如下:

2、使用Eclipse编译打包程序:

3、运行程序:

三、总结:


一、要求:

首先在Linux系统 /usr/local/Hadoop 目录下创建两个文件,即wordfile1.txt和wordfile2.txt

input

文件wordfile1.txt内容如下:

I love Spark

I love Hadoop

文件wordfile2.txt内容如下:

Hadoop is good

Spark is fast

output

统计词频输出结果:

fast 1

good 1

Hadoop 2

I 2

is 2

love 2

Spark 2

二、内容:

1、完整的词频统计程序如下:

2、使用Eclipse编译打包程序:

程序编译错误时,鼠标点击有红色波浪线的程序,按提示修改即可

3、运行程序:

三、总结:

本实验运用MapReduce程序实现了词频统计功能。在编写MapReduce程序之前,需要先判断目标任务是否可以采用MapReduce编程。MapReduce会把一个大的文件切分为很多小片段进行分布式并行处理,最终对不同片段的处理结果进行汇总。

参考文献:《大数据基础编程、实验和案例教程》 by 林子雨

下载专区http://dblab.xmu.edu.cn/post/bigdatapractice2/icon-default.png?t=LA92http://dblab.xmu.edu.cn/post/bigdatapractice2/具体运行过程查看上面链接

posted @ 2022-05-28 00:13  tiansz  阅读(384)  评论(0编辑  收藏  举报