使用Spark RDD完成词频统计

1、实验要求

对给定的一个英文文本，使用Spark完成文本内容的读取并转换成RDD，然后使用RDD的算子统计每个单词出现的次数，将统计结果按从大到小的顺序打印到控制台上。

2、实验代码

import findspark
findspark.init()
from pyspark import SparkContext, SparkConf

sparkConf = SparkConf()
sparkConf.setAppName("wordcount")
sparkConf.setMaster("local")
sparkContext = SparkContext(conf=sparkConf)

txtFile = r'C:\Users\LYW\Desktop\英文文档.txt'  # 文件路径
rdd = sparkContext.textFile(txtFile)

rdd.flatMap(lambda x: x.split()).map(lambda x: (x, 1)).reduceByKey(lambda x, y: x + y).sortBy(keyfunc=(lambda x: x[1]),ascending=False).foreach(lambda x: print(x))

3、编程思路

既然我们要统计单词出现的次数，那么就要先把数据导入，可以用sc.txtFile()方法来加载文件数据，该方法把文件的URI作为参数，要分割单词，就可以使用rdd中的flatMap方法，它会遍历textFile中的每行文本内容，当遍历到其中一行文本内容时，会把文本内容赋值给变量x，并执行lamda表达式。接着执行x.split()).map(lambda x: (x, 1))会得到一个映射map，这个映射中包含了很多个(key,value)，针对这个映射，执行reduceByKey(lambda x, y: x + y)操作，这个操作会把映射中的所有(key,value)按照key进行分组，然后使用sortBy函数进行按照词频降序排序，最后使用foreach遍历打印结果，这样就计算得到了这个单词的词频。

posted @ 2021-10-27 15:29 星月故里yw 阅读(1850) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 25岁的心里话
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 零经验选手，Compose 一天开发一款小游戏！
· 通过 API 将Deepseek响应流式内容输出到前端
· 因为Apifox不支持离线，我果断选择了Apipost！

阅读目录(Content)

此页目录为空

星月故里

愿你游历半生，归来仍是少年。

念两句诗

使用Spark RDD完成词频统计

1、实验要求

2、实验代码

3、编程思路

公告

个人信息

日历

搜索

常用链接

合集

随笔分类

随笔档案

文章档案

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论