摘要:
本篇从二个方面讲解: 高级特性: 1、Spark Streaming资源动态分配 2、Spark Streaming动态控制消费速率 原理剖析,动态控制消费速率其后面存在一套理论,资源动态分配也有一套理论。 先讲理论,后面讨论。 为什么要动态资源分配和动态控制速率? Spark默认是先分配资源,然后 阅读全文
摘要:
本讲从二个方面阐述: 数据清理原因和现象 数据清理代码解析 Spark Core从技术研究的角度讲 对Spark Streaming研究的彻底,没有你搞不定的Spark应用程序。 Spark Streaming一直在运行,不断计算,每一秒中在不断运行都会产生大量的累加器、广播变量,所以需要对对象及 阅读全文
摘要:
数据接入Spark Streaming的二种方式:Receiver和no receivers方式 建议企业级采用no receivers方式开发Spark Streaming应用程序,好处: 1、更优秀的自由度控制 2、语义一致性 no receivers更符合数据读取和数据操作,Spark 计算框 阅读全文
摘要:
本篇从二个方面进行源码分析: 一、updateStateByKey解密 二、mapWithState解密 通过对Spark研究角度来研究jvm、分布式、图计算、架构设计、软件工程思想,可以学到很多东西。 进行黑名单动态生成和过滤例子中会用到updateStateByKey方法,此方法在DStream 阅读全文