摘要: 一、背景 每天上百亿的日志数据实时查询是个挑战,在架构设计上采用了Kafka + Flink + Clickhouse+Redash,实现海量数据的实时分析。计算层,我们开发了基于Flink计算引擎的实时数据平台,简化开发流程,数据通过配置化实现动态Schema生成,底层数据解析统一,无需重复造轮子 阅读全文
posted @ 2020-06-19 18:16 追风dylan 阅读(9199) 评论(3) 推荐(1) 编辑
摘要: 一、业务场景 Kafka consumer 任务出现异常的时候如何保证数据的质量?在以往的经验中,为了保证数据的精准一次,使用mysql表记录下程序异时数据的partition和offset,任务重启的时候查询下mysql 表中是否有程序异常的记录,如果有就从mysql表中取出对应partition 阅读全文
posted @ 2020-06-19 16:02 追风dylan 阅读(661) 评论(0) 推荐(0) 编辑