随笔分类 - 大数据
摘要:朋友的公司做的是西南某边境省份网红新能源车的数据处理,由于新能源车的火爆,从年初从现在,数据量已经翻番。但与此同时,服务器却没有多少增加。无奈之下,只能暂时将kafka的数据存储时间由之前的1天改为6小时,5小时。其实有点危险,如果在凌晨发生什么异常生产事故导致实时任务退出,如果运维没有及时通知,导
阅读全文
摘要:###起因 事情的起因,是看到一篇公众号文章Apache Flink 在汽车之家的应用与实践,里面提到了“基于 SQL 的开发流程”。在平台提供以上功能的基础上,用户可以快速的实现 SQL 作业的开发: 创建一个 SQL 任务; 1.编写 DDL 声明 Source 和 Sink; 2.编写 DML
阅读全文
摘要:版本号: spark 2.3 structured streaming代码 ###异常信息 KafkaSource[Subscribe[test]] at org.apache.spark.sql.execution.streaming.StreamExecution.org$apache$spar
阅读全文
摘要:structed streaming的执行批次,较spark streaming有所改变。更加灵活。总结下来,可大白话地分为三类: 1尽可能快的执行,不定时间 2按固定间隔时间执行 3仅执行一次 详情如下: Trigger类型 使用 注意 unspecified (default) as soon
阅读全文