5.RDD操作综合实例

准备文件

下载小说或长篇新闻稿

http://www.kekenet.com/read/202203/653673.shtml
image

上传到hdfs上

image
image

读文件创建RDD

image

分词

image

排除大小写lower(),map()

image

标点符号re.split(pattern,str),flatMap(),

image
image

停用词,可网盘下载stopwords.txt,filter(),

image
image

过滤掉长度小于2的词filter()

image

统计词频

image
image

按词频排序

image

输出到文件

image

image

查看结果

image

一句话实现:文件入文件出

image

image

二、求Top值

网盘下载payment.txt文件,通过RDD操作实现选出最大支付额的用户。
image

假设一行代表某一个用户,每行第一个表示序号,用来代表用户,其他为支付额

读入文件
image

用逗号进行数据分割
image

进行键值对转换
image

进行排序
image
第八个用户支付额最高

posted @ 2022-04-04 17:50  空木蓮華  阅读(91)  评论(0编辑  收藏  举报