SparkStreaming实时计算框架

流式计算处理模式

模式一：所有输入记录按一条接一条的处理。

模式二：微批处理（batch）
将输入的数据以某一时间间隔T，切分成多个微批量数据，然后对每个批量数据进行处理。spark streaming采用的就是这种方式。

SparkStreaming介绍

官网

Spark streaming是spark生态系统中的一个重要框架，它建立在spark core之上。

数据流程

spark streaming 是一个基于spark core 之上的实时计算框架，可以从很多数据源消费数据，并进行实时的处理，最后，可以将结果存储到Hdfs，数据库或实时仪表板，具有高吞吐量和容错能力强的特点。

计算思想

spark Streaming 对流式数据的处理介于Batch批处理和RealTime实时处理之间，即微批处理。

微批处理的思想：
将源源不断到来的数据，按照固定的时间间隔Batch Interval进行微批划分MicroBatch，然后对每个MicroBatch微批数据进行快速分析和处理，当时间间隔BatchInterval较小时（秒级别），就像时在做实时处理。

Spark Streaming provides a high-level abstraction called discretized stream or DStream, which represents a continuous stream of data. DStreams can be created either from input data streams from sources such as Kafka, and Kinesis, or by applying high-level operations on other DStreams. Internally, a DStream is represented as a sequence of RDDs.

DStream是spark Streaming提供的基本数据抽象。它表示一个连续的数据流，可以是从源接收到的输入数据流，也可以是通过转换输入流生成的已处理数据流。

DStream由一系列连续的RDD表示，每个RDD都包含来自特定间隔的数据。

 Spark Streaming对流数据按照秒、分等时间间隔进行微批划分，每个微批就是一个RDD，这些时间上连续的RDD就组成了DStream。

DStream 就是一系列时间上连续的RDD。对DStream的任何操作都会转换为底层RDD上的操作。

posted @ 2022-03-20 18:09 Gazikel 阅读(50) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

把你的脸迎向阳光，那就不会有阴影

SparkStreaming实时计算框架

流式计算处理模式

SparkStreaming介绍

数据流程

计算思想

公告