Hadoop - hadoop自带MR案例：词频 WordCount

词频 Word Count

1、在浏览器上访问 https://node01:9870

2、创建目录 /user 目录

bin/hdfs dfs -mkdir /user

如果未配置环境变量，需要到hadoop安装目录下执行 /opt/module/hadoop-2.5.2（这个是我的安装目录）

3、将文件上传到HDFS上的 /user/input下

bin/hdfs dfs -mkdir -p /user/input
bin/hdfs dfs -put etc/hadoop/*.xml /user/input

上传的文件所在位置：/opt/module/hadoop-2.5.2/etc/hadoop/

4、运行提供的词频案例

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep /user/input output 'dfs[a-z.]+'

可以看到MapReduce过程

5、从HDFS把MR的输出文件get到本地查看或者直接在HDFS查看

# 将输出文件从HDFS文件系统 get到本地查看内容
bin/hdfs dfs -get /user/output output
cat output/*
# 直接执行hdfs客户端命令查看输出文件内容
bin/hdfs dfs -cat /user/output/*

posted @ 2023-06-07 00:01 HOUHUILIN 阅读(74) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· Sqoop - 使用场景

· Hadoop - HDFS常用命令

· 大数据MapReduce词频统计

· MapReduce 简单使用

· hadoop20

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决：字节Trae VS Cursor，谁才是开发者新宠？
· 开源Multi-agent AI智能体框架aevatar.ai，欢迎大家贡献代码
· Manus重磅发布：全球首款通用AI代理技术深度解析与实战指南

公告

昵称： HOUHUILIN
园龄： 5年8个月
粉丝： 20
关注： 14

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类 (298)

随笔档案 (316)

文章分类 (9)

文章档案 (14)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:TA有对象了
--HOUHUILIN
2. Re:Typora - typora主题样式
@CoderManolin wow~ 大佬~ /(ㄒoㄒ)/~~...
--HOUHUILIN
3. Re:Typora - typora主题样式
@CoderManolin 博客园的代码块么？还是Typora的代码块？...
--HOUHUILIN
4. Re:Typora - typora主题样式
代码块mac风格怎么做的？
--Ming-Coder
5. Re:Ansible - Ansible Ad hoc 命令行
总结 || SUMMARY Ansible配置文件主配置文件ansible.cfg、inventory主机清单文件 Ansible-adhoc命令 ansible 主机集合 -m 模块名 -a "参...
--HOUHUILIN