05 2022 档案

Spark 综合作业

摘要：网盘下载sc.txt文件，创建RDD，并转换得到DataFrame。 >>> lines = spark.sparkContext.textFile('file:///home/hadoop/wc/sc.txt') >>> parts = lines.map(lambda x:x.split(',' 阅读全文

posted @ 2022-05-23 22:53 天井听雨阅读(90) 评论(0) 推荐(0) 编辑

7. Spark SQL

摘要：1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 Spark SQL的前身是 Shark，Shark最初是美国加州大学伯克利分校的实验室开发的Spark生态系统的组件之一，它运行在Spark系统之上，Shark重用了Hive的工作机制，并直接继承了Hive的各个组件， Sh 阅读全文

posted @ 2022-05-10 08:44 天井听雨阅读(25) 评论(0) 推荐(0) 编辑

05 2022 档案

公告