摘要: 数据查询 Druid的聚合查询主要有三种形式: Timeseries TopN GroupBy 一般而言,OLAP系统最核心的能力是GroupBy查询,Druid也不例外。 但是GroupBy查询资源消耗较多,TopN和Timeseries作为GroupBy的有益补充,能够改善查询的性能。我们建议: 阅读全文
posted @ 2020-04-08 22:37 boiledwater 阅读(906) 评论(0) 推荐(0) 编辑
摘要: 实时数据摄入 我们采用Kafka Indexing Service作为实时摄入数据的方案。 准备工作 将数据实时灌入某个Kafka topic中 与批量导入数据类似:考虑清楚数据中哪一列可以作为时间列、哪些列可以作为维度列、哪些列可以作为指标列(尤其是指标的聚合函数,包括count、sum、max、 阅读全文
posted @ 2020-04-08 22:33 boiledwater 阅读(836) 评论(0) 推荐(1) 编辑
摘要: 批量数据摄入 准备工作 确保druid帐号可以访问到位于HDFS之上的原始数据 考虑清楚数据中哪一列可以作为时间列、哪些列可以作为维度列、哪些列可以作为指标列(尤其是指标的聚合函数,包括count、sum、max、min等,如果涉及UV、留存的计算,则需要使用HyperUnique或者Theta s 阅读全文
posted @ 2020-04-08 22:30 boiledwater 阅读(806) 评论(0) 推荐(0) 编辑
摘要: Druid是分布式的OLAP平台,支持实时和批量两种数据灌入模式,在亿级数据规模上能够提供秒级的查询响应。如下图所示,用户可以对指定维度的条件进行过滤(包括等于、模糊匹配等,这部分内容后面会详细解释),也可以按照指定的维度进行聚合。 基本概念 在我们讨论之前,先让我们看看一个数据集的例子 (来源于线 阅读全文
posted @ 2020-04-08 22:20 boiledwater 阅读(582) 评论(0) 推荐(0) 编辑