第八次作业

WordCount程序任务:

程序

WordCount

输入

一个包含大量单词的文本文件

输出

文件中每个单词及其出现次数(频数),

并按照单词字母顺序排序,

每个单词和其频数占一行,单词和频数之间有间隔

1.用你最熟悉的编程环境,编写非分布式的词频统计程序。

  • 读文件
  • 分词(text.split列表)
  • 按单词统计(字典,key单词,value次数)
  • 排序(list.sort列表)
  • 输出
    1.用你最熟悉的编程环境,编写非分布式的词频统计程序。
    sentences = """
    What is Time? (Nursery Rhyme)

    Time is grain for peasants.

    Time is wealth for workers.

    Time is life for doctors.

    Time is victory for soldiers.

    Time is knowledge for students.

    Time is speed for scientists.

    Time is money for businessmen.

    Time is everything for all of us.

    Therefore, seize the time of today!
    """
    sentences=sentences.replace(',','')
    sentences=sentences.replace(',','')
    sentences = sentences.split()
    count_dict = {}
    for sentence in sentences:
    if sentence not in count_dict:
    count_dict[sentence] = 1
    else:
    count_dict[sentence] += 1
    for key,value in count_dict.items():
    print(f"{key}出现了{value}次")

     

     

     

     

     

    在Ubuntu中实现运行。

    • 准备txt文件
    • 编写py文件
    • python3运行py文件分析txt文件。

    ①txt文件

     

     

     

     ②py文件

     

     

     

     ③python3运行py文件

  •  

     

    2.用MapReduce实现词频统计

    2.1编写Map函数

    • 编写mapper.py
    • 授予可运行权限
    • 本地测试mapper.py

    ①编写mapper.py

  •  

     

     

     ②授予可运行权限

  •  

     ③本次测试mapper.py

  •  

     

     

     

    2.2编写Reduce函数

    • 编写reducer.py
    • 授予可运行权限
    • 本地测试reducer.py

    ①编写reducer.py

  •  

     

  •  

     ②授予可运行权限

  •  

     ③本地测试reducer.py

  •  

     

     

     

     

    2.3分布式运行自带词频统计示例

    • 启动HDFS与YARN
    • 准备待处理文件,上传到HDFS上
    • 运行实例hadoop-mapreduce-examples-2.7.1.jar
    • 查看结果

    ①启动HDFS与YARN

  •  

     

     

     ②准备待处理文件,上传到HDFS上

     

     

     ③运行实例hadoop-mapreduce-examples-2.7.1.jar

     

    ④查看结果

     

     

     

    2.4 分布式运行自写的词频统计

    • 用Streaming提交MapReduce任务:
      • 查看hadoop-streaming的jar文件位置:/usr/local/hadoop/share/hadoop/tools/lib/
      • 配置stream环境变量
      • 编写运行文件run.sh
      • 运行run.sh运行
    • 查看运行结果
    • 停止HDFS与YARN

    ①查看hadoop-streaming的jar文件位置:/usr/local/hadoop/share/hadoop/tools/lib/,配置stream环境变量

     

     ②编写运行文件run.sh

  •  

     

     ③运行run.sh运行

  •  

     ④查看运行结果

  •  

     ⑤停止HDFS与YARN

  •  

     

posted on 2021-11-23 15:03  KeyGG  阅读(36)  评论(0编辑  收藏  举报

导航