xuanlin的专栏
居士人生
摘要: 本期内容 : ReceivedBlockTracker容错安全性 DStreamGraph和JobGenerator容错安全性 Driver的安全性主要从Spark Streaming自己运行机制的角度考虑的,如对源数据保存方面使用了WAL方式,驱动层面的容错安全主要使用的是CheckPoint , 阅读全文
posted @ 2016-05-24 18:57 xuanlin的专栏 阅读(449) 评论(0) 推荐(0) 编辑
摘要: 本期内容 : Executor的WAL 消息重放 数据安全的角度来考虑整个Spark Streaming : 1、 Spark Streaming会不断次序的接收数据并不断的产生Job ,不断的提交Job到集群运行,至关重要的问题接收数据安全性 2、 由于Spark Streaming是基于Spar 阅读全文
posted @ 2016-05-24 18:55 xuanlin的专栏 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 本期内容 : ReceiverTracker的架构设计 消息循环系统 ReceiverTracker具体实现 一、 ReceiverTracker的架构设计 1、 ReceiverTracker可以以Driver中的具体自己的算法来在具体的Execute中启动Receiver,启动Receiver的 阅读全文
posted @ 2016-05-24 18:54 xuanlin的专栏 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 本期内容 : 数据接收架构设计模式 数据接收源码彻底研究 一、Spark Streaming数据接收设计模式 Spark Streaming接收数据也相似MVC架构: 1、 Mode相当于Receiver存储数据,C级别的,Receiver是个抽象因为他有好多的Receiver 2、 Receive 阅读全文
posted @ 2016-05-24 18:53 xuanlin的专栏 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 本期内容 : Receiver启动的方式设想 Receiver启动源码彻底分析 多个输入源输入启动,Receiver启动失败,只要我们的集群存在就希望Receiver启动成功,运行过程中基于每个Teark启动都有可能运行失败。 启动一个应用程序的不同Receiver采用一个不同RDD的partion 阅读全文
posted @ 2016-05-24 18:52 xuanlin的专栏 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 本期内容 : DStream与RDD关系彻底研究 Streaming中RDD的生成彻底研究 问题的提出 : 1、 RDD是怎么生成的,依靠什么生成 2、执行时是否与Spark Core上的RDD执行有什么不同的 3、 运行之后我们要怎么处理 为什么有第三点 : 是因为Spark Streaming 阅读全文
posted @ 2016-05-24 18:51 xuanlin的专栏 阅读(620) 评论(0) 推荐(0) 编辑
摘要: 本期内容 : JobScheduler内幕实现 JobScheduler深度思考 JobScheduler 是整个Spark Streaming调度的核心,需要设置多线程,一条用于接收数据不断的循环,另外一条是处理线程,同时需要把调度与执行分离开。 一、 作业流程源码 : 首先只要定义了BatchD 阅读全文
posted @ 2016-05-24 16:56 xuanlin的专栏 阅读(711) 评论(0) 推荐(0) 编辑
摘要: 本期内容 : Spark Streaming Job生成深度思考 Spark Streaming Job生成源码解析 Spark Core中的Job就是一个运行的作业,就是具体做的某一件事,这里的JOB由于它是基于Spark Core所以Spark Streaming对其进行了封装。 大数据开发应用 阅读全文
posted @ 2016-05-24 16:55 xuanlin的专栏 阅读(329) 评论(0) 推荐(0) 编辑