Kylin、druid、presto、impala大数据即席查询

一、OLAP一般分为即席查询和固化查询

即席查询：用户根据自己的需求，灵活的选择查询条件，系统根据用户的选择生成相应的统计报表。普通应用查询是定制开发的，即席查询是用户自定义查询条件，快速的执行自定义SQL（通过手写sql完成一些临时的数据分析需求，这类sql形式多变、逻辑复杂，对查询时间没有严格要求），无法提前运算和预测。
固化查询：指的是一些固化下来的取数、看数需求，通过数据产品的形式提供给用户，从而提高数据分析和运营的效率。这类的sql固定模式，对响应时间有较高要求。

二、Kylin、druid、presto、impala简介

Apache kylin是一个开源分布式分析引擎、提供Hadoop、Spark之上的SQL查询接口及多维分析（OLAP）能力，可以再亚秒内查询巨大的Hive表，（还可以与BI工具集成ODBC、JDBC、RestAPI、还有自带的Zepplin插件，来访问Kylin服务）。

kylin是一种OLAP数据引擎，支持大数据生态圈的数据分析业务，主要是通过预计算的方式将用户设定的多维度数据立方体(cube)缓存起来，达到快速查询的目的。应用场景应该是针对复杂sql join后的数据缓存。
核心是Cube，cube是一种预计算技术，基本思路是预先对数据作多维索引，查询时只扫描索引而不访问原始数据从而提速。

Impala是Cloudera开发开源的，Impala是Cloudera开发并开源的，能查询存储在HDFS和HBase中的数据。同Hive一样，也是一种SQL on Hadoop解决方案。但Impala抛弃了MapReduce,使用更类似于传统的MPP数据库技术来提高查询速度。

impala可以直接查询hdfs或hbase上的数据，可以与现有的存储无缝对接。
impala需要单独安装。
impala提供jdbc接口和sql执行引擎，可以与现有系统集成

Druid同kylin一样，是采用预计算的方式。主要解决的是对于大量的基于时序的数据进行聚合查询。数据可以实时摄入，进入到Druid后立即可查，同时数据是几乎是不可变。通常是基于时序的事实事件，事实发生后进入Druid，外部系统就可以对该事实进行查询。

Druid是一个实时处理时序数据的OLAP数据库，因为它的索引首先按照时间分片，查询的时候也是按照时间线去路由索引。需要预计算，将数据存储在druid的Segment文件中，占用一部分存储资源，对sql支持不友好，需要用他自己的方言书写。

做为一个分布式的支持实时分析的数据存储系统，具有以下几个特点

- 亚秒级 OLAP 查询，包括多维过滤、Ad-hoc 的属性分组、快速聚合数据等等。
- 实时的数据消费，真正做到数据摄入实时、查询结果实时。
- 高效的多租户能力，最高可以做到几千用户同时在线查询。
- 扩展性强，支持 PB 级数据、千亿级事件快速处理，支持每秒数千查询并发。
- 极高的高可用保障，支持滚动升级。

实时数据分析是 Apache Druid 最典型的使用场景。该场景涵盖的面很广，例如：实时指标监控、推荐模型、广告平台、搜索模型等场景。这些场景的特点都是拥有大量的数据，且对数据查询的时延要求非常高。在实时指标监控中，系统问题需要在出现的一刻被检测到并被及时给出报警。在推荐模型中，用户行为数据需要实时采集，并及时反馈到推荐系统中。用户几次点击之后系统就能够识别其搜索意图，并在之后的搜索中推荐更合理的结果。

Presto是Facebook开源的大数据查询引擎，为了解决hive查询慢产生。使用java编写，数据全部在内存中处理。
Facebook开源的一个java写的分布式数据查询框架，原生集成了Hive、Hbase和关系型数据库，Presto背后所使用的执行模式与Hive有根本的不同，它没有使用MapReduce，大部分场景下比hive快一个数量级，其中的关键是所有的处理都在内存中完成。

原生集成了Hive、Hbase和关系型数据库。
提供jdbc接口和sql执行引擎，可以与现有系统集成
Presto支持在线数据查询，包括Hive，关系数据库（MySQL、Oracle）以及专有数据存储。一条Presto查询可以将多个数据源的数据进行合并，可以跨越整个组织进行分析
Presto主要用来处理响应时间小于1秒到几分钟的场景。
Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。注：虽然Presto可以解析SQL，但它不是一个标准的数据库。不是MySQL、Oracle的代替品，也不能用来处理在线事务（OLTP）。

三、总结

1、Druid：是一个实时处理时序数据的OLAP数据库，因为它的索引首先按照时间分片，查询的时候也是按照时间线去路由索引。

2、Kylin：核心是Cube，Cube是一种预计算技术，基本思路是预先对数据作多维索引，查询时只扫描索引而不访问原始数据从而提速。

3、Presto：它没有使用Mapreduce，大部分场景下比HIVE块一个数量级，其中的关键是所有的处理都在内存中完成。

4、Impala：基于内存计算，速度快，支持的数据源没有Presto多。

5、SparkSQL：是spark用来处理结构化的一个模块，它提供一个抽象的数据集DataFrame，并且是作为分布式SQL查询引擎的应用。它还可以实现Hive on Spark，hive里的数据用sparksql查询。

6、框架选型：

(1)、从超大数据的查询效率来看：

Druid>Kylin>Presto>SparkSQL

(2)、从支持的数据源种类来讲：

Presto>SparkSQL>Kylin>Druid

posted @ 2021-09-26 18:03 xuzhujack 阅读(994) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

昵称： xuzhujack
园龄： 5年10个月
粉丝： 9
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

xuzhujack

Walk the road you want to walk and do what you want to do , keep moving ahead and ... ...

Kylin、druid、presto、impala大数据即席查询

一、OLAP一般分为即席查询和固化查询

二、Kylin、druid、presto、impala简介

三、总结

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论