摘要: 一、Spark的应用程序执行过程: 在Spark中,每一个“作业”称为一个应用程序(Application),每一个Application都必须有一个SparkContext,相当于application的入口,或者理解为环境。当用户(Client)提交应用程序(Application)时,该app 阅读全文
posted @ 2019-08-13 13:39 KamShing 阅读(569) 评论(0) 推荐(0) 编辑
摘要: Spark启动过程中,主要是进行Master和Worker之间的通信。 首先,由Worker节点向Master发送注册信息,然后,Master处理完毕,返回注册成功或者失败消息,如果注册成功,Worker会定时发送心跳给Master。 具体过程如下: 当master节点启动后,随之启动各worker 阅读全文
posted @ 2019-08-13 13:21 KamShing 阅读(375) 评论(0) 推荐(0) 编辑
摘要: 一、基本概念 ETL,它是Extract、Transform、Load三个单词的首写字母。ETL是建立数据仓库最重要的处理过程,也是工作量最大的环节,一般会占到整个数据仓库建立的一半工作量。 建立一个数据仓库,就是要把来自多个异构的源系统的数据集成在一起,然后放置于一个集中的位置,用于数据分析。 二 阅读全文
posted @ 2019-08-13 12:19 KamShing 阅读(2071) 评论(0) 推荐(0) 编辑
摘要: 在Spark中定义了通信框架的接口,这些接口中调用了Netty的具体方法(在spark2.x前,使用的是Akka)。各接口和实现类的关系如下图所示。 将终端(EndPoint)注册到Rpc环境中: 在各个模块中,如DriverEndPoint、ClientEndPoint、Master、Worker 阅读全文
posted @ 2019-08-13 12:17 KamShing 阅读(675) 评论(0) 推荐(0) 编辑
摘要: 在Scala中,你可以在任何作用于内定义函数,在函数体内,可以访问相应作用域内的任何变量;还不止,你的函数还可以在变量不再处于作用于内的时候被调用,这就是闭包的最基本的理解。 一、transform、action算子的函数参数 在spark集群中,spark应用由负责运行用户编写的main函数,以及 阅读全文
posted @ 2019-08-13 12:09 KamShing 阅读(1113) 评论(10) 推荐(1) 编辑