大数据 - 随笔分类 - 是奉壹呀

流计算中kafka的OffsetReset策略

摘要：朋友的公司做的是西南某边境省份网红新能源车的数据处理，由于新能源车的火爆，从年初从现在，数据量已经翻番。但与此同时，服务器却没有多少增加。无奈之下，只能暂时将kafka的数据存储时间由之前的1天改为6小时，5小时。其实有点危险，如果在凌晨发生什么异常生产事故导致实时任务退出，如果运维没有及时通知，导阅读全文

posted @ 2022-07-28 15:07 是奉壹呀阅读(2135) 评论(0) 推荐(0)

Flink SQL任务自动生成与提交

摘要：###起因事情的起因，是看到一篇公众号文章Apache Flink 在汽车之家的应用与实践，里面提到了“基于 SQL 的开发流程”。在平台提供以上功能的基础上，用户可以快速的实现 SQL 作业的开发：创建一个 SQL 任务； 1.编写 DDL 声明 Source 和 Sink； 2.编写 DML 阅读全文

posted @ 2021-10-14 15:20 是奉壹呀阅读(4931) 评论(5) 推荐(1)

Structured Streaming 的异常处理【Concurrent update to the log. Multiple streaming jobs detected】

摘要：版本号： spark 2.3 structured streaming代码 ###异常信息 KafkaSource[Subscribe[test]] at org.apache.spark.sql.execution.streaming.StreamExecution.org$apache$spar 阅读全文

posted @ 2021-09-01 16:50 是奉壹呀阅读(944) 评论(0) 推荐(0)

structed streaming 触发器trigger

摘要：structed streaming的执行批次，较spark streaming有所改变。更加灵活。总结下来，可大白话地分为三类: 1尽可能快的执行，不定时间 2按固定间隔时间执行 3仅执行一次详情如下： Trigger类型使用注意 unspecified (default) as soon 阅读全文

posted @ 2021-08-30 15:24 是奉壹呀阅读(965) 评论(0) 推荐(0)

我从二院来

苍茫之天涯，乃吾辈之所爱也；浩瀚之程序，亦吾之所爱也，然则何时而爱耶？必曰：先天下之忧而忧，后天下之爱而爱也！

随笔分类 - 大数据

公告