5.RDD操作综合实例
一、词频统计
1.分步骤实现
1).准备文件
1.下载小说或长篇新闻稿
2)读文件创建RDD
3)分词
4)排除大小写
标点符号re.split(pattern,str),flatMap()
停用词,可网盘下载stopwords.txt,filter()
长度小于2的词
5)统计词频
6)排序
7)输出到文件
8)查看结果
B. 一句话实现:文件入文件出
二、求Top值
网盘下载payment.txt文件,通过RDD操作实现选出最大支付额的用户。
丢弃不合规范的行:
空行
少数据项
缺失数据
支付金额转换为数值型,按支付金额排序
取出Top3
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异