学习笔记8

Streaming 原理
可以参考官网教程：http://spark.apache.org/docs/latest/streaming-programming-guide.html，Spark Streaming提供了称为离散流或DStream的高级抽象，它表示连续的数据流，在内部DStream表示为RDD序列，每个RDD包含一定间隔的数据，如下图所示：

所有对于DStream的操作都会相应地转换成对RDDs的操作，在上面的例子中，flatMap操作被应用到lines 中的每个RDD中生成了一组RDD（即words）

总结编写Spark Streaming程序的基本步骤是：

1.通过创建输入DStream来定义输入源

2.通过对DStream应用转换操作和输出操作来定义流计算

3.用streamingContext.start()来开始接收数据和处理流程

4.通过streamingContext.awaitTermination()方法来等待处理结束（手动结束或因为错误而结束）

5.可以通过streamingContext.stop()来手动结束流计算进程

StreamingContext
有两种创建StreamingContext的方式：通过SparkContext创建和通过SparkConf创建；

Spark conf创建：

val conf = new SparkConf().setAppName(appName).setMaster(master);

val ssc = new StreamingContext(conf, Seconds(1));

appName是用来在Spark UI上显示的应用名称。master是Spark、Mesos或Yarn集群的URL，或者是local[*]。batch interval可以根据你的应用程序的延迟要求以及可用的集群资源情况来设置。

SparkContext创建：

val sc = new SparkContext(conf)

val ssc = new StreamingContext(sc, Seconds(1))

输入DStreams和Receiver
在前面的例子中lines就是从源得到的输入DStream，输入DStream对应一个接收器对象，可以从源接收消息并存储到Spark内存中进行处理。Spark Streaming提供两种streaming源：

基础源：直接可以使用streaming上下文API的源，比如files和socket；
高级源：通过引用额外实体类得到的Kafka，Flume源；可以在应用中创建使用多个输入DStreams来实现同时读取多种数据流，worker/executor 是持久运行的任务，因此它将占用一个分给该应用的core，因此Spark Streaming需要分配足够的core去运行接收器和处理接收的数据；
在本地运行Spark Streaming程序时，不要使用“local”或“local[1]”作为主URL。这两者中的任何一个都意味着在本地运行任务只使用一个线程。如果使用基于receiver的输入DStream（如Kafka、Flume等），这表明将使用单个线程运行receiver，而不留下用于处理所接收数据的线程。因此在本地运行时，始终使用“local[n]”作为主URL，其中n必须大于运行的receiver数量，否则系统将接收数据，但不能处理它。

Kafka和Flume这类源需要外部依赖包，其中一些库具有复杂的依赖关系，Spark shell中没有这些高级源代码，因此无法在spark-shell中测试基于这些高级源代码的应用程序，但可以手动将包引入；

基于可靠性的考虑，可以将数据源分为两类：可靠的接收器的数据被Receiver 接收后发送确认到源头（如Kafka ,Flume）并将数据存储在spark，不可靠的接收器不会向源发送确认。

DStreams转换
与RDD类似，转换操作允许修改来自输入DStream的数据，转换操作包括无状态转换操作和有状态转换操作。

无状态转换操作实例：下节spark-shell中“套接字流”词频统计采用无状态转换，每次统计都只统计当前批次到达的单词的词频，和之前批次无关，不会进行累计。

有状态转换操作实例：滑动窗口转换操作和updateStateByKey操作；

窗口操作
每次窗口在源DStream上滑动，窗口内的源RDD被组合/操作生成了窗口RDD，在图例中，过去3个时间单位的数据将被操作，并按2个时间单位滑动。

posted @ 2024-01-20 22:02 lcz111 阅读(6) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 学习笔记2

· 学习笔记3

· 寒假学习11——Spark Streaming基础

· 1月17日

· Spark Streaming工作原理

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· winform 绘制太阳，地球，月球运作规律
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 上周热点回顾（3.3-3.9）
· 超详细：普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人

公告

昵称： lcz111
园龄： 2年8个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

LCZ

学习笔记8

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜