软工1903赵凯林

2022年5月10日

摘要： 1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 Spark SQL的前身是 Shark，Shark最初是美国加州大学伯克利分校的实验室开发的Spark生态系统的组件之一，它运行在Spark系统之上，Shark重用了Hive的工作机制，并直接继承了Hive的各个组件， Sh 阅读全文

posted @ 2022-05-10 19:09 软工1903赵凯林阅读(75) 评论(0) 推荐(0)

2022年4月20日

6.RDD综合练习：更丰富的操作

摘要：一、集合运算练习 union()， intersection()，subtract(), cartesian() 二、内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件，签到日期汇总，出勤次数统计三、综阅读全文

posted @ 2022-04-20 18:16 软工1903赵凯林阅读(40) 评论(0) 推荐(0)

2022年3月19日

赵凯林前三次作业

摘要：第一次作业-大数据概述一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。OozieOozie是可扩展可伸缩的工作流协调管理器。Oozie协调的作业属于一次性的非循环作业，例如MapReduce, Streaming, Pipes, Pig, Hive, 阅读全文

posted @ 2022-03-19 20:06 软工1903赵凯林阅读(47) 评论(0) 推荐(0)

2022年3月18日

RDD操作

摘要： 1、启动pyspark 2、从本地文件系统中加载数据创建RDD2.1启动hdfs，上传到hdfs 2.2pyspark查看文件、加载 2.3在hdfs中查看文件 2.4停止hdfs 3、通过并行集合（列表）创建RDD 3.1输入列表、字符串、numpy生成数组 RDD操作转换操作： 3.2filt 阅读全文

posted @ 2022-03-18 22:34 软工1903赵凯林阅读(72) 评论(0) 推荐(0)

2022年2月24日

大数据概述作业

摘要： 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。OozieOozie是可扩展可伸缩的工作流协调管理器。Oozie协调的作业属于一次性的非循环作业，例如MapReduce, Streaming, Pipes, Pig, Hive, Sqoop等等都是。O 阅读全文

posted @ 2022-02-24 17:01 软工1903赵凯林阅读(79) 评论(0) 推荐(0)

大数据概述

摘要： 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。OozieOozie是可扩展可伸缩的工作流协调管理器。Oozie协调的作业属于一次性的非循环作业，例如MapReduce, Streaming, Pipes, Pig, Hive, Sqoop等等都是。O 阅读全文

posted @ 2022-02-24 16:24 软工1903赵凯林阅读(68) 评论(0) 推荐(0)

软工1903赵凯林

公告