随笔分类 -  SparkStreaming

摘要:https://blog.csdn.net/qq_40158089/article/details/100673433 阅读全文
posted @ 2022-02-24 17:39 guoyu1 阅读(6) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/256327560 一、如何保证Spark Streaming第一次启动不丢数据? kafka的参数auto.offset.reset设定为earlist,保证Spark Streaming第一次启动从kafka最早偏移量开始拉取数据。 二、 阅读全文
posted @ 2020-11-27 19:58 guoyu1 阅读(582) 评论(0) 推荐(0) 编辑
摘要:https://mp.weixin.qq.com/s/Fb1cW0oN7xYeb1oI2ixtgQ 阅读全文
posted @ 2020-11-02 19:21 guoyu1 阅读(882) 评论(0) 推荐(0) 编辑
摘要:一、sparkStreaming窗口函数概念: 1、reduceByKeyAndWindow(_+_,Seconds(3), Seconds(2)) 可以看到我们定义的window窗口大小Seconds(3s) ,是指每2s滑动时,需要统计前3s内所有的数据。 2、重载函数reduceByKeyAn 阅读全文
posted @ 2020-03-17 10:19 guoyu1 阅读(1243) 评论(1) 推荐(0) 编辑
摘要:1、SparkStreaming直连方式和Receiver方式的区别: https://mp.weixin.qq.com/s/-K6I2QNebJ0N414jMLfOSg 2、如何手动管理kafka偏移量: https://www.jianshu.com/p/bf422de60e8b 3、实时计算编 阅读全文
posted @ 2020-03-08 21:27 guoyu1 阅读(430) 评论(0) 推荐(0) 编辑
摘要:DStream基本工作原理: DStream是Spark Streaming提供的一种高级抽象,英文全称为Discretized Stream,中文翻译为离散流,它代表了一个持续不断的数据流。DStream可以通过输入数据源(比如从Flume、Kafka中)来创建,也可以通过对其他DStream应用 阅读全文
posted @ 2019-12-24 10:41 guoyu1 阅读(560) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示