Druid

Druid简介

  Druid是一个快速的列式分布式的支持实时分析的数据存储系统。它在处理PB级数据、毫秒级查询、数据实时处理方面,比传统的OLAP系统有了显著的性能改进。

Druid的特点

  • 列式存储格式。Druid实用面向列的存储,它只需要加载特定查询所需要的列。查询速度迅速快。
  • 可扩展的分布式系统。Druid通常部署在数十到数百台服务的集群中,并且提供数百万条/秒的摄取率,保留数百万条记录,以及亚秒级到几秒钟的查询延迟。
  • 大规模的并行处理。Druid可以在整个集群中进行大规模的并行查询。
  • 实时或批量摄取。Druid可以实时摄取数据(实时获取的数据可立即用于查询)或批量处理数据。
  • 自愈、自平衡、易操作。集群扩展和缩小,只需要添加或删除服务器,集群将在后台自动重新平衡,无需任何停机时间。
  • 数据进行了有效的预聚合或预计算,查询速度快。
  • 数据的结果应用了Bitmap压缩算法。

Druid的应用场景

  1. 适用于清洗好的记录实时录入,但不需要更新操作。
  2. 适用于支持宽表,不用join的方式(换句话说就是一张单表)。
  3. 适用于可以总结出基础的统计指标,用一个字段表示。
  4. 适用于实时性要求高的场景。
  5. 适用于对数据质量敏感度不高的场景。

Druid框架原理

Druid数据结构

posted @ 2020-07-13 23:16  南鸽  阅读(191)  评论(0编辑  收藏  举报