5.RDD操作综合实例
准备文件
下载小说或长篇新闻稿
http://www.kekenet.com/read/202203/653673.shtml
上传到hdfs上
读文件创建RDD
分词
排除大小写lower(),map()
标点符号re.split(pattern,str),flatMap(),
停用词,可网盘下载stopwords.txt,filter(),
过滤掉长度小于2的词filter()
统计词频
按词频排序
输出到文件
查看结果
一句话实现:文件入文件出
二、求Top值
网盘下载payment.txt文件,通过RDD操作实现选出最大支付额的用户。
假设一行代表某一个用户,每行第一个表示序号,用来代表用户,其他为支付额
读入文件
用逗号进行数据分割
进行键值对转换
进行排序
第八个用户支付额最高