Java实现单词统计 - 那山的狐狸 - 博客园

Java实现单词统计

原文链接：

https://www.toutiao.com/i6764296608705151496/

单词统计的是统计一个文件中单词出现的次数，比如下面的数据源

mapreduce单词统计理解核心思想

其中,最终出现的次数结果应该是下面的显示

mapreduce单词统计理解核心思想

那么在MapReduce中该如何编写代码并出现最终结果？

首先我们把文件上传到HDFS中(hdfs dfs –put …)

数据名称：data.txt，大小是size是2G

红黄绿三个块表示的是数据存放的块

mapreduce单词统计理解核心思想

然后数据data.txt进入map阶段，会以<K,V>(KV对)的形式进入，K表示的是：每行首字母相对于文件头的字节偏移量，V表示的是每一行的文本。

mapreduce单词统计理解核心思想

那么我可以用图表示：蓝色的椭圆球表示一个map，红黄绿数据块在进入map阶段的时候，数据的形式为左边红色的<K,V>(KV对)的形式

mapreduce单词统计理解核心思想

经过map处理，比如String.split(""),做一次处理，数据会在不同的红黄绿数据块中变为下面的KV形式

mapreduce单词统计理解核心思想

mapreduce单词统计理解核心思想

我们在配置Hadoop的时候或设置reduce的数量，假如有两个reduce

Map执行完的数据会放到对应的reduce中，如下图

mapreduce单词统计理解核心思想

这个地方有一个简单的原理就是

Job.setNumReduce(2)会设置reduce的数量

而HashPartioner类可以利用 key.hashcode % reduce的结果，将不同的map结果输入到不同的reduce中，比如a-e开头的放到一个地方，e-z开头的放到一个地方，那么

mapreduce单词统计理解核心思想

mapreduce单词统计理解核心思想

这样的数据结果就会变成

mapreduce单词统计理解核心思想

mapreduce单词统计理解核心思想

mapreduce单词统计理解核心思想

好那么我们此时可以统计了，我开始编写代码

首先我们创建一个wordCount项目，我们创建的项目是maven项目

mapreduce单词统计理解核心思想

其中pom的配置部分

mapreduce单词统计理解核心思想

mapreduce单词统计理解核心思想

mapreduce单词统计理解核心思想

我们创建类

mapreduce单词统计理解核心思想

继承Mapper(注意注释)

mapreduce单词统计理解核心思想

编写代码

mapreduce单词统计理解核心思想

同样创建WordCountReducer，编写代码，利用前面的reduce思想理解

mapreduce单词统计理解核心思想

创建WordCountDriver类编写代码

mapreduce单词统计理解核心思想

导出项目jar

mapreduce单词统计理解核心思想

mapreduce单词统计理解核心思想

mapreduce单词统计理解核心思想

mapreduce单词统计理解核心思想

我们启动Hadoop

mapreduce单词统计理解核心思想

我们上传数据和jar包

mapreduce单词统计理解核心思想

将数据上传到hdfs上

mapreduce单词统计理解核心思想

执行下面语句

bin/yarn jar /data/wordCount/wordCount.jar com.xlglvc.xx.mapredece.wordcount_client.WordCountDriver /data.txt /outputwordcount

mapreduce单词统计理解核心思想

出了点问题，时间不同步

mapreduce单词统计理解核心思想

安装ntpdate工具

yum -y install ntp ntpdate

设置系统时间与网络时间同步

ntpdate cn.pool.ntp.org

mapreduce单词统计理解核心思想

然后重新执行，此时我们新选择个目录

bin/yarn jar /data/wordCount/wordCount.jar com.xlglvc.xx.mapredece.wordcount_client.WordCountDriver /data.txt /outputwordcount1

mapreduce单词统计理解核心思想

我们去浏览器查询

mapreduce单词统计理解核心思想

我们查看最终结果

bin/hdfs dfs -text /outputwordcount1/part-r-00000

mapreduce单词统计理解核心思想

出现我们想要的结果，统计完成

posted on 2020-03-20 00:03 那山的狐狸阅读(1253) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

导航

统计

随笔 - 214
文章 - 2
评论 - 5
阅读 - 10万

公告

昵称：那山的狐狸
园龄： 10年9个月
粉丝： 6
关注： 4

随笔分类

随笔档案

文章分类

Java学习(1)

阅读排行榜

评论排行榜

最新评论

1. Re:Echart可视化学习（一）
我是新用户，看不到图片正常么
--nickerman
2. Re:Echart可视化学习集合
算是百度唯一能拿得出手的产品
--启明星工作室
3. Re:Servlet初级学习加入数据库操作（一）
你好
--2021侍者
4. Re:Java 简单操作hdfs API
version文件在哪里？
--黄黑皮大佬
5. Re:通过用户日志分析理解数据处理流程
大哥，这篇文章的中的图片呢，失去了灵魂
--极海听雷