04 2022 档案

摘要:1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理。在实际大数据应用中,经常需 阅读全文
posted @ 2022-04-24 14:42 吕浩洵 阅读(92) 评论(0) 推荐(0) 编辑
摘要:集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计 三、综合练习: 阅读全文
posted @ 2022-04-17 06:05 吕浩洵 阅读(79) 评论(0) 推荐(0) 编辑
摘要:一、词频统计 A. 分步骤实现 1、准备文件 1、下载小说或长篇新闻稿 2、上传到hdfs上 2、读文件创建RDD 3、分词 4、 标点符号re.split(pattern,str),flatMap(), 排除大小写lower(),map() 停用词,可网盘下载stopwords.txt,filte 阅读全文
posted @ 2022-04-08 01:47 吕浩洵 阅读(71) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示