摘要:
本节主要内容: 一、DStream与RDD关系的彻底的研究 二、StreamingRDD的生成彻底研究 Spark Streaming RDD思考三个关键的问题: RDD本身是基本对象,根据一定时间定时产生RDD的对象,随着时间的积累,不对其管理的话会导致内存会溢出,所以在BatchDuration 阅读全文
摘要:
本节主要内如如下: 一、spark streaming job生成深度思考 二、spark streaming job生成源码解析 输入的ds有很多来源Kafka、Socket、Flume,输出的DStream其实是逻辑级别的Action,是Spark Streaming框架提出的,其底层翻译成为物 阅读全文
摘要:
本章节内容: 一、在线动态计算分类最热门商品案例回顾 二、基于案例贯通Spark Streaming的运行源码 先看代码(源码场景:用户、用户的商品、商品的点击量排名,按商品、其点击量排名前三): package com.dt.spark.sparkstreaming import org.apac 阅读全文
摘要:
本课将从二方面阐述: 一、解密SparkStreaming Job架构和运行机制 二、解密SparkStreaming容错架构和运行机制 一切不能进行实时流处理的数据都将是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,加上Spark的生态系统及各个子框架,SparkStrea 阅读全文
摘要:
本节课主要从以下二个方面来解密SparkStreaming: 一、解密SparkStreaming运行机制 二、解密SparkStreaming架构 SparkStreaming运行时更像SparkCore上的应用程序,SparkStreaming程序启动后会启动很多job,每个batchIntva 阅读全文
摘要:
本节课通过二个部分阐述SparkStreaming的理解: 一、解密SparkStreaming另类在线实验 二、瞬间理解SparkStreaming本质 Spark源码定制班主要是自己做发行版、自己动手改进Spark源码,通常在电信、金融、教育、医疗、互联网等领域都有自己不同的业务,如果Sprak 阅读全文
摘要:
本篇文章主要从二个方面展开: 一、Exactly Once 二、输出不重复 事务: 银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,如何保证事务的一致性,也就是说事务输出,能够输出且只会输出一次,即A只转一次,B只收一次。 从事务视角解密SparkStreaming架构: SparkStre 阅读全文
摘要:
本节课分成二部分讲解: 一、Spark Streaming on Polling from Flume实战 二、Spark Streaming on Polling from Flume源码 第一部分: 推模式(Flume push SparkStreaming) VS 拉模式(SparkStrea 阅读全文
摘要:
本节课程主要分二个部分: 一、Spark Streaming updateStateByKey案例实战二、Spark Streaming updateStateByKey源码解密 第一部分: updateStateByKey的主要功能是随着时间的流逝,在Spark Streaming中可以为每一个可 阅读全文
摘要:
本课分2部分讲解: 第一部分,讲解Kafka的概念、架构和用例场景; 第二部分,讲解Kafka的安装和实战。 由于时间关系,今天的课程只讲到如何用官网的例子验证Kafka的安装是否成功。后续课程会接着讲解如何集成Spark Streaming和Kafka。 一、Kafka的概念、架构和用例场景 ht 阅读全文