Dstream
DStream基本工作原理:
DStream是Spark Streaming提供的一种高级抽象,英文全称为Discretized Stream,中文翻译为离散流,它代表了一个持续不断的数据流。DStream可以通过输入数据源(比如从Flume、Kafka中)来创建,也可以通过对其他DStream应用高阶函数(map,flatmap)来创建。
在内部实现上,DStream由一组时间序列上连续的RDD来表示,RDD是Spark Core的核心抽象,即不可变的、分布式的数据集,DStream中的每个RDD都包含了一个时间段内的数据。
对DStream应用的算子,在底层会被转换为对DStream中每个RDD的操作
底层原理为,对DStream中每个时间段的RDD都应用一遍算子操作,然后生成新的RDD,即作为新的DStream中的那个时间段的RDD。
经过一系列算子操作之后,最终可以将实时计算的结果存储到相关介质中,如Redis、HBase、MySQL。
根据这个流程也可以得出Spark Streaming编程的步骤:
1.创建输入的数据流DStream
2.对DStream进行各种算子操作,得到新的DStream
3.将处理完的结果存储到存储介质中
批处理时间间隔
Spark Streaming中,数据采集是逐条进行的,而数据处理是按批进行的
Spark Streaming中会先设置好批处理的时间间隔。当达到批处理时间间隔的时候就会把采集到的数据汇总起来成为一批数据交给系统去处理
转载博客:https://blog.csdn.net/lrxcmwy2/article/details/82698089
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)