04 2022 档案

摘要:集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计 三、综合练习: 阅读全文
posted @ 2022-04-20 21:44 an23 阅读(25) 评论(0) 推荐(0)
摘要:一、词频统计 A.分步骤实现 1.准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs 启动hdfs 上传文件并查看 2.读文件创建RDD 创建SparkContext以及从文件系统中加载数据创建RDD 与原txt文件对比 3.分词 4.标点符号re.split(pattern,str),flat 阅读全文
posted @ 2022-04-12 09:31 an23 阅读(23) 评论(0) 推荐(0)