摘要: 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 Spark SQL的前身是 Shark,Shark最初是美国加州大学伯克利分校的实验室开发的Spark生态系统的组件之一,它运行在Spark系统之上,Shark重用了Hive的工作机制,并直接继承了Hive的各个组件, Sh 阅读全文
posted @ 2022-05-10 19:09 软工1903赵凯林 阅读(75) 评论(0) 推荐(0)
摘要: 一、集合运算练习 union(), intersection(),subtract(), cartesian() 二、内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计 三、综 阅读全文
posted @ 2022-04-20 18:16 软工1903赵凯林 阅读(40) 评论(0) 推荐(0)
摘要: 第一次作业-大数据概述 一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。OozieOozie是可扩展可伸缩的工作流协调管理器。Oozie协调的作业属于一次性的非循环作业,例如MapReduce, Streaming, Pipes, Pig, Hive, 阅读全文
posted @ 2022-03-19 20:06 软工1903赵凯林 阅读(47) 评论(0) 推荐(0)
摘要: 1、启动pyspark 2、从本地文件系统中加载数据创建RDD2.1启动hdfs,上传到hdfs 2.2pyspark查看文件、加载 2.3在hdfs中查看文件 2.4停止hdfs 3、通过并行集合(列表)创建RDD 3.1输入列表、字符串、numpy生成数组 RDD操作 转换操作: 3.2filt 阅读全文
posted @ 2022-03-18 22:34 软工1903赵凯林 阅读(72) 评论(0) 推荐(0)
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。OozieOozie是可扩展可伸缩的工作流协调管理器。Oozie协调的作业属于一次性的非循环作业,例如MapReduce, Streaming, Pipes, Pig, Hive, Sqoop等等都是。O 阅读全文
posted @ 2022-02-24 17:01 软工1903赵凯林 阅读(79) 评论(0) 推荐(0)
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。OozieOozie是可扩展可伸缩的工作流协调管理器。Oozie协调的作业属于一次性的非循环作业,例如MapReduce, Streaming, Pipes, Pig, Hive, Sqoop等等都是。O 阅读全文
posted @ 2022-02-24 16:24 软工1903赵凯林 阅读(68) 评论(0) 推荐(0)