摘要:
本节的主要内容: 一、ReceivedBlockTracker容错安全性 二、DStreamGraph和JobGenerator容错安全性 从数据层面,ReceivedBlockTracker为整个Spark Streaming应用程序记录元数据信息。 从调度层面,DStreamGraph和JobG 阅读全文
摘要:
本节主要内容: 一、SparkStreaming Job生成深度思考 二、SparkStreaming Job生成源码解析 JobScheduler的地位非常的重要,所有的关键都在JobScheduler,它的重要性就相当于是Spark Core当中的DAGScheduler,因此,我们要花重点在J 阅读全文
摘要:
本节主要考虑:Executor的安全性 主要是数据的安全容错,计算是借助Spark Core的计算容错,本次暂不考虑。 数据容错天然方式就是数据副本,当前数据有问题就读取另外一份;十秒数据出问题,再次读取,支持数据重放。 天然借助BlockManager做数据备份,参照Spark Core,有不同的 阅读全文
摘要:
本节的主要内容: 一、ReceiverTracker的架构设计 二、消息循环系统 三、ReceiverTracker具体实现 Spark Streaming作为Spark Core基础 架构之上的一个应用程序,其中的ReceiverTracker接收到数据之后,具体该怎么进行数据处理呢?看源码Rec 阅读全文
摘要:
本节的主要内容: 一、数据接受架构和设计模式 二、接受数据的源码解读 Spark Streaming不断持续的接收数据,具有Receiver的Spark 应用程序的考虑。 Receiver和Driver在不同进程,Receiver接收数据后要不断给Deriver汇报。 因为Driver负责调度,Re 阅读全文
摘要:
本节的主要内容: 一、Receiver启动的方式设想 二、Receiver启动源码彻底分析 Receiver的设计是非常巧妙和出色的,非常值得我们去学习、研究、借鉴。 在深入认识Receiver之前,我们有必要思考一下,如果没有Spark、Spark Streaming,我们怎么实现Reciver? 阅读全文
摘要:
本节主要内容: 一、DStream与RDD关系的彻底的研究 二、StreamingRDD的生成彻底研究 Spark Streaming RDD思考三个关键的问题: RDD本身是基本对象,根据一定时间定时产生RDD的对象,随着时间的积累,不对其管理的话会导致内存会溢出,所以在BatchDuration 阅读全文