spark streaming 读取kafka数据保存到parquet文件,redis存储offset
摘要:
spark streaming 读取kafka topic上json格式数据,存储为parquet文件;使用redis存储offset;因为是将数据存储下来,没能使用事务,本文不能实现exactly once语义;基于幂等的角度,可以考虑数据设置唯一标志,进行merge去重,来实现exactly o 阅读全文
posted @ 2019-09-24 18:31 mylittlecabin 阅读(1556) 评论(0) 推荐(0) 编辑