陌生的3

第八次作业

WordCount程序任务：

程序

WordCount

输入

一个包含大量单词的文本文件

输出

文件中每个单词及其出现次数（频数），

并按照单词字母顺序排序，

每个单词和其频数占一行，单词和频数之间有间隔

1.用你最熟悉的编程环境，编写非分布式的词频统计程序。

读文件
分词（text.split列表）
按单词统计（字典,key单词，value次数）
排序（list.sort列表）
输出

2.用MapReduce实现词频统计

在Ubuntu中实现运行。

准备txt文件
编写py文件
python3运行py文件分析txt文件。

2.用MapReduce实现词频统计

2.1编写Map函数

编写mapper.py
授予可运行权限
本地测试mapper.py

2.2编写Reduce函数

编写reducer.py
授予可运行权限
本地测试reducer.py

3.本地测试reducer代码

•不排序

•排序

2.3分布式运行自带词频统计示例

启动HDFS与YARN（或者使用命令：start-all.sh全部开启）

准备待处理文件,上传到HDFS上

运行实例hadoop-mapreduce-examples-2.7.1.j

查看结果

2.4 分布式运行自写的词频统计

用Streaming提交MapReduce任务：

①查看hadoop-streaming的jar文件位置：/usr/local/hadoop/share/hadoop/tools/lib/

②配置stream环境变量

③编写运行文件run.sh

④运行run.sh运行

查看运行结果

停止HDFS与YARN

posted on 2021-11-23 20:52 陌生的3 阅读(27) 评论(0) 收藏举报

刷新页面返回顶部

导航

公告