ZFYCH_Love

Simply but Powerful

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
  115 随笔 :: 1 文章 :: 36 评论 :: 18万 阅读
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

一、先在HDFS文件系统创建对应的目录,具体如下:

1、待处理文件存放目录 

/data/wordcount(之所以创建wordcount,是为了对文件分类,对应本次任务名)

命令:hadoop fs -mkdir -p /data/wordcount  (-p是同时创建子目录)

2、存放输出文件目录

/output

命令:hadoop fs -mkdir /output

tip:也可以在已连接了集群的eclipse里建立,即:Map/Reduce Location里

不过这种方式建立的文件,所有者是本机,不是我安装hadoop的用户,是否可用,需要验证下。

3、验证以上的成果:

命令:hadoop fs -ls /

二、自己在本地文件系统(也就是某一个目录下)手动创建一个文件,用于测试

1、创建文件

命令:vi ~/test/inputword(vi命令有意思,如果文件不存在,会自动创建一个空文件)

2、打开文件、手动写入一些测试内容:

hello my

hello master

what slave

hello slave

保存。

3、将该文件上传到hdfs文件系统:

命令:hadoop fs -put ~/test/inputword /data/wordcount/

验证方式:

命令:hadoop fs -text /data/wordcount/inputword

三、运行吧

命令:hadoop jar /work/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar  wordcount  /data/wordcount  /output/wordcount 

tip:

1、注意jar包的路径一定要写对,否则会提示找不到jar包

2、遇到个问题,一直提示重试连接服务器master:

15/10/29 02:26:38 INFO ipc.Client: Retrying connect to server: master/xx.xx.xx.xx:8032. Already tried 5 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

网上查了下,说是端口还是什么的,这个8032并不是我配置的,和他有关系的可能性不大。

不过其中一句话引起了我的联想,他提到了连接不上JobTacker云云

突然想起来,由于在启动hadoop集群的时候,提示start-all.sh已过时,于是使用的start-dfs.sh

这样在启动后,使用jps验证服务,是少几个的,只有两个namenode,一个datanode和一个默认的jps

于是重新执行了一次 start-all.sh

然后重新运行,成功。

Nice!

把结果截图放上来吧!

 

四、验证:

命令:-text /output/wordcount/part-r-00000

结果就是对单词出现个数的统计,略。

posted on   xiaoyang_  阅读(292)  评论(0编辑  收藏  举报
编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· [AI/GPT/综述] AI Agent的设计模式综述
点击右上角即可分享
微信分享提示