上一页 1 2 3 4 5 6 7 ··· 9 下一页
摘要: 在上一篇划分调度阶段中的handleJobSubmitted方法中,提到finalStage的生成,在生成finalStage的同时,建立起所有Stage的依赖关系,然后通过finalStage生成一个作业实例,在该作业实例中按照顺序提交调度阶段进行执行,在执行过程中监听总线获取作业、阶段执行的情况 阅读全文
posted @ 2019-08-15 09:07 KamShing 阅读(315) 评论(0) 推荐(0) 编辑
摘要: Spark调度阶段的划分是由DAGScheduler实现,DAGScheduler会从最后一个RDD出发,根据RDD的lineage使用广度优先算法遍历整个依赖树(总共使用了两次,一次是遍历区分ResultStage范围;另一次则是遍历获取ShuffleMapStage划分依据,用来划分每个Shuf 阅读全文
posted @ 2019-08-15 08:37 KamShing 阅读(548) 评论(0) 推荐(0) 编辑
摘要: 一、Spark的应用程序执行过程: 在Spark中,每一个“作业”称为一个应用程序(Application),每一个Application都必须有一个SparkContext,相当于application的入口,或者理解为环境。当用户(Client)提交应用程序(Application)时,该app 阅读全文
posted @ 2019-08-13 13:39 KamShing 阅读(569) 评论(0) 推荐(0) 编辑
摘要: Spark启动过程中,主要是进行Master和Worker之间的通信。 首先,由Worker节点向Master发送注册信息,然后,Master处理完毕,返回注册成功或者失败消息,如果注册成功,Worker会定时发送心跳给Master。 具体过程如下: 当master节点启动后,随之启动各worker 阅读全文
posted @ 2019-08-13 13:21 KamShing 阅读(375) 评论(0) 推荐(0) 编辑
摘要: 一、基本概念 ETL,它是Extract、Transform、Load三个单词的首写字母。ETL是建立数据仓库最重要的处理过程,也是工作量最大的环节,一般会占到整个数据仓库建立的一半工作量。 建立一个数据仓库,就是要把来自多个异构的源系统的数据集成在一起,然后放置于一个集中的位置,用于数据分析。 二 阅读全文
posted @ 2019-08-13 12:19 KamShing 阅读(2071) 评论(0) 推荐(0) 编辑
摘要: 在Spark中定义了通信框架的接口,这些接口中调用了Netty的具体方法(在spark2.x前,使用的是Akka)。各接口和实现类的关系如下图所示。 将终端(EndPoint)注册到Rpc环境中: 在各个模块中,如DriverEndPoint、ClientEndPoint、Master、Worker 阅读全文
posted @ 2019-08-13 12:17 KamShing 阅读(675) 评论(0) 推荐(0) 编辑
摘要: 在Scala中,你可以在任何作用于内定义函数,在函数体内,可以访问相应作用域内的任何变量;还不止,你的函数还可以在变量不再处于作用于内的时候被调用,这就是闭包的最基本的理解。 一、transform、action算子的函数参数 在spark集群中,spark应用由负责运行用户编写的main函数,以及 阅读全文
posted @ 2019-08-13 12:09 KamShing 阅读(1113) 评论(10) 推荐(1) 编辑
摘要: 写在最前,本次环境搭建是在Hadoop2.6.1,三节点的基础上完成的。 (关于搭建Hadoop环境,可参考:https://www.cnblogs.com/SysoCjs/p/10835793.html) 说明: #master,表示在master节点上操作; #master,#slave1,#s 阅读全文
posted @ 2019-07-18 14:12 KamShing 阅读(497) 评论(0) 推荐(0) 编辑
摘要: 一、kafka体系架构 由上图可知,有三台机器搭建的kafka集群,kafka作为一种消息队列,producer以push模式将数据发送到kafka的机器上(每一台kafka机器可以认为是一个kafka broker),同时订阅了kafka broker的consumer,以pull模式对消息进行消 阅读全文
posted @ 2019-07-18 14:06 KamShing 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 写在最前,本次环境搭建是在Hadoop2.6.1,Zookeeper3.4.11,三节点的基础上完成的。 (关于搭建Hadoop环境,可参考:https://blog.csdn.net/weixin_39400271/article/details/89057884 关于搭建zookeeper环境, 阅读全文
posted @ 2019-07-18 13:57 KamShing 阅读(480) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 9 下一页