会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
xuanlin的专栏
居士人生
博客园
首页
新随笔
新文章
联系
订阅
管理
[置顶]
Spark Streaming中动态Batch Size实现初探
摘要: 本期内容 : BatchDuration与 Process Time 动态Batch Size Spark Streaming中有很多算子,是否每一个算子都是预期中的类似线性规律的时间消耗呢? 例如:join操作和普通Map操作的处理数据的时间消耗是否会呈现出一致的线性规律呢,也就是说,并非数据量规
阅读全文
posted @ 2016-06-07 12:39 xuanlin的专栏
阅读(3092)
评论(0)
推荐(0)
编辑
[置顶]
Spark Streaming源码解读之No Receivers彻底思考
摘要: 本期内容 : Direct Acess Kafka Spark Streaming接收数据现在支持的两种方式: 01、 Receiver的方式来接收数据,及输入数据的控制 02、 No Receiver的方式 以上两种方式中,No Receiver的方式更符合读取、操作数据的思路,Spark作为一个
阅读全文
posted @ 2016-05-30 07:17 xuanlin的专栏
阅读(358)
评论(0)
推荐(1)
编辑
2016年6月7日
Spark Streaming架构设计和运行机制总结
摘要: 本期内容 : Spark Streaming中的架构设计和运行机制 Spark Streaming深度思考 Spark Streaming的本质就是在RDD基础之上加上Time ,由Time不断的运行触发周而复始的接收数据及产生Job处理数据。 一、 ReceiverTracker : Receiv
阅读全文
posted @ 2016-06-07 05:12 xuanlin的专栏
阅读(446)
评论(0)
推荐(0)
编辑
2016年6月6日
Spark Streaming中空RDD处理及流处理程序优雅的停止
摘要: 本期内容 : Spark Streaming中的空RDD处理 Spark Streaming程序的停止 由于Spark Streaming的每个BatchDuration都会不断的产生RDD,空RDD有很大概率的,如何进行处理将影响其运行的效率、资源的有效使用。 Spark Streaming会不断
阅读全文
posted @ 2016-06-06 22:07 xuanlin的专栏
阅读(5373)
评论(0)
推荐(0)
编辑
2016年5月30日
Spark Streaming源码解读之State管理之UpdataStateByKey和MapWithState解密
摘要: 本期内容 : UpdateStateByKey解密 MapWithState解密 Spark Streaming是实现State状态管理因素: 01、 Spark Streaming是按照整个BachDuration划分Job的,每个BachDuration都会产生一个Job,为了符合业务操作的需求
阅读全文
posted @ 2016-05-30 13:20 xuanlin的专栏
阅读(4002)
评论(2)
推荐(1)
编辑
Spark Streaming资源动态申请和动态控制消费速率剖析
摘要: 本期内容 : Spark Streaming资源动态分配 Spark Streaming动态控制消费速率 为什么需要动态处理 : Spark 属于粗粒度资源分配,也就是在默认情况下是先分配好资源然后再进行计算,粗粒度有个好处,因为资源是提前给你分配好,当有计算任务的时候直接使用就可以了, 粗粒度不好
阅读全文
posted @ 2016-05-30 13:19 xuanlin的专栏
阅读(1139)
评论(0)
推荐(0)
编辑
Spark Streaming源码解读之数据清理内幕彻底解密
摘要: 本期内容 : Spark Streaming数据清理原理和现象 Spark Streaming数据清理代码解析 Spark Streaming一直在运行的,在计算的过程中会不断的产生RDD ,如每秒钟产生一个BachDuration同时也会产生RDD, 在这个过程中除了基本的RDD外还有累加器、广播
阅读全文
posted @ 2016-05-30 07:18 xuanlin的专栏
阅读(704)
评论(0)
推荐(0)
编辑
2016年5月24日
Spark Streaming源码解读之Driver容错安全性
摘要: 本期内容 : ReceivedBlockTracker容错安全性 DStreamGraph和JobGenerator容错安全性 Driver的安全性主要从Spark Streaming自己运行机制的角度考虑的,如对源数据保存方面使用了WAL方式,驱动层面的容错安全主要使用的是CheckPoint ,
阅读全文
posted @ 2016-05-24 18:57 xuanlin的专栏
阅读(449)
评论(0)
推荐(0)
编辑
Spark Streaming源码解读之Executor容错安全性
摘要: 本期内容 : Executor的WAL 消息重放 数据安全的角度来考虑整个Spark Streaming : 1、 Spark Streaming会不断次序的接收数据并不断的产生Job ,不断的提交Job到集群运行,至关重要的问题接收数据安全性 2、 由于Spark Streaming是基于Spar
阅读全文
posted @ 2016-05-24 18:55 xuanlin的专栏
阅读(272)
评论(0)
推荐(0)
编辑
Spark Streaming源码解读之Driver中ReceiverTracker架构设计以具体实现彻底研究
摘要: 本期内容 : ReceiverTracker的架构设计 消息循环系统 ReceiverTracker具体实现 一、 ReceiverTracker的架构设计 1、 ReceiverTracker可以以Driver中的具体自己的算法来在具体的Execute中启动Receiver,启动Receiver的
阅读全文
posted @ 2016-05-24 18:54 xuanlin的专栏
阅读(270)
评论(0)
推荐(0)
编辑
下一页