|NO.Z.00058|——————————|BigDataEnd|——|Hadoop&Spark.V05|——|Spark.v05|Spark Streaming|DStream转换操作|
一、DStream转换操作
### --- DStream转换操作
~~~ DStream上的操作与RDD的类似,
~~~ 分为 Transformations(转换)和 OutputOperations(输出)两种,
~~~ 此外转换操作中还有一些比较特殊的方法,如:
~~~ updateStateByKey、transform 以及各种 Window 相关的操作。
二、DStream操作
Transformation | Meaning |
map(func) | 将源DStream中的每个元素通过一个函数func从而得到新的DStreams |
flatMap(func) | 和map类似,但是每个输入的项可以被映射为0或更多项 |
filter(func) | 选择源DStream中函数func判为true的记录作为新DStreams |
repartition(numPartitions) | 通过创建更多或者更少的partition来改变此DStream的并行级别 |
union(otherStream) | 联合源DStreams和其他DStreams来得到新DStream |
count() | 统计源DStreams中每个RDD所含元素的个数得到单元素RDD的新DStreams |
reduce(func) | 通过函数func(两个参数一个输出)来整合源DStreams中每个RDD元素得到单元素RDD的DStreams。这个函数需要关联从而可以被并行计算 |
countByValue() | 对于DStreams中元素类型为K调用此函数,得到包含(K,Long)对的新DStream,其中Long值表明相应的K在源DStream中每个RDD出现的频率 |
reduceByKey(func, [numTasks]) |
对(K,V)对的DStream调用此函数,返回同样(K,V)的新DStream,新DStream中的对应V为使用reduce函数整合而来。默认情况下,这个操作使用Spark默认数量的并行任务(本地模式为2, 集群模式中的数量取决于配置参数spark.default.parallelism)。 也可以传入可选的参数numTasks来设置不同数量的任务 |
join(otherStream, [numTasks]) |
两DStream分别为(K,V)和(K,W)对,返回(K,(V,W))对的新DStream |
cogroup(otherStream, [numTasks]) |
两DStream分别为(K,V)和(K,W)对,返回(K,(Seq[V],Seq[W])对新DStreams |
transform(func) | 将RDD到RDD映射的函数func作用于源DStream中每个RDD上得到新DStream。这个可用于在DStream的RDD上做任意操作 |
updateStateByKey(func) | 得到”状态”DStream,其中每个key状态的更新是通过将给定函数用于此key的上一个状态和新值而得到。这个可用于保存每个key值的任意状态数据 |
### --- 备注:
~~~ 在DStream与RDD上的转换操作非常类似(无状态的操作)
~~~ DStream有自己特殊的操作(窗口操作、追踪状态变化操作)
~~~ 在DStream上的转换操作比RDD上的转换操作少
二、DStream 的转化操作可以分为 无状态(stateless) 和 有状态(stateful) 两种:
### --- 无状态转化操作
~~~ 无状态转化操作。
~~~ 每个批次的处理不依赖于之前批次的数据。
~~~ 常见的 RDD 转化操作,例如 map、filter、reduceByKey 等
### --- 有状态转化操作
~~~ 有状态转化操作。
~~~ 需要使用之前批次的数据 或者是 中间结果来计算当前批次的数据。
~~~ 有状态转化操作包括:基于滑动窗口的转化操作 或 追踪状态变化的转化操作
Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart
——W.S.Landor
分类:
bdv017-spark.v02
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」