摘要: 一、需求背景 App端的埋点日志通过LogerServer收集到Kafka,再用Flink写入到HDFS,按天或天加小时分区,文件格式为text 或者Parquet,Checkpoint间隔为5分钟,Sink 并行度为10,每个小时产生600个小文件,由于数据量大,每天几十亿的数据,产生的小文件很多 阅读全文
posted @ 2020-06-17 22:12 追风dylan 阅读(2342) 评论(0) 推荐(0) 编辑
摘要: 一、什么是ClickHouse? ClickHouse由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++,ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,简称CK, 与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量 阅读全文
posted @ 2020-06-17 15:23 追风dylan 阅读(4684) 评论(0) 推荐(4) 编辑