05 2022 档案
摘要:网盘下载sc.txt文件,分别创建RDD、DataFrame和临时表/视图; 1.创建RDD 2. 并转换得到DataFrame 3.注册为临时表 4.导包 分别用RDD操作、DataFrame操作和spark.sql执行SQL语句实现以下数据分析: 1.总共有多少学生? 2.总共开设了多少门课程?
阅读全文
摘要:1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展 因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理。在实际大数据应用中,经常需要融
阅读全文