2024/2/16学习进度笔记

Spark Streaming 支持的数据输入源很多，例如：Kafka、 Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如HDFS，数据库等。另外Spark Streaming 也能和 MLlib（机器学习）以及 Graphx 完美融合。

流数据特点：

数据一直在变化
数据无法回退
数据始终源源不断涌进

DStream

和 Spark 基于 RDD 的概念很相似，Spark Streaming 使用离散化流(discretized stream)作为抽象表示，叫作DStream。DStream 是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为 RDD 存在，而DStream 是由这些RDD 所组成的序列(因此得名“离散化”)。

DStream形成步骤：

针对某个时间段切分的小数据块进行RDD DAG构建；
连续时间内产生的一连串小的数据进行切片处理分别构建RDD DAG，形成DStream；

定义一个RDD处理逻辑，数据按照时间切片，每次流入的数据都不一样，但是RDD的DAG逻辑是一样的，即按照时间划分成一个个batch，用同一个逻辑处理。

posted @ 2024-02-16 23:20 IronBro 阅读(58) 评论(0) 收藏举报

刷新页面返回顶部

2024/2/16学习进度笔记

DStream

公告