会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
软工1903赵凯林
博客园
首页
新随笔
联系
订阅
管理
2022年5月10日
7.Spark SQL
摘要: 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 Spark SQL的前身是 Shark,Shark最初是美国加州大学伯克利分校的实验室开发的Spark生态系统的组件之一,它运行在Spark系统之上,Shark重用了Hive的工作机制,并直接继承了Hive的各个组件, Sh
阅读全文
posted @ 2022-05-10 19:09 软工1903赵凯林
阅读(75)
评论(0)
推荐(0)
2022年4月20日
6.RDD综合练习:更丰富的操作
摘要: 一、集合运算练习 union(), intersection(),subtract(), cartesian() 二、内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计 三、综
阅读全文
posted @ 2022-04-20 18:16 软工1903赵凯林
阅读(40)
评论(0)
推荐(0)
2022年3月19日
赵凯林前三次作业
摘要: 第一次作业-大数据概述 一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。OozieOozie是可扩展可伸缩的工作流协调管理器。Oozie协调的作业属于一次性的非循环作业,例如MapReduce, Streaming, Pipes, Pig, Hive,
阅读全文
posted @ 2022-03-19 20:06 软工1903赵凯林
阅读(47)
评论(0)
推荐(0)
2022年3月18日
RDD操作
摘要: 1、启动pyspark 2、从本地文件系统中加载数据创建RDD2.1启动hdfs,上传到hdfs 2.2pyspark查看文件、加载 2.3在hdfs中查看文件 2.4停止hdfs 3、通过并行集合(列表)创建RDD 3.1输入列表、字符串、numpy生成数组 RDD操作 转换操作: 3.2filt
阅读全文
posted @ 2022-03-18 22:34 软工1903赵凯林
阅读(72)
评论(0)
推荐(0)
2022年2月24日
大数据概述作业
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。OozieOozie是可扩展可伸缩的工作流协调管理器。Oozie协调的作业属于一次性的非循环作业,例如MapReduce, Streaming, Pipes, Pig, Hive, Sqoop等等都是。O
阅读全文
posted @ 2022-02-24 17:01 软工1903赵凯林
阅读(79)
评论(0)
推荐(0)
大数据概述
摘要: 1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。OozieOozie是可扩展可伸缩的工作流协调管理器。Oozie协调的作业属于一次性的非循环作业,例如MapReduce, Streaming, Pipes, Pig, Hive, Sqoop等等都是。O
阅读全文
posted @ 2022-02-24 16:24 软工1903赵凯林
阅读(68)
评论(0)
推荐(0)
公告