HBase 简介

HBase 是什么

Apache HBase 是 Hadoop 数据库,一个分布式的,可扩展的,大数据存储。

  • HBase 集群可以托管非常大的表——数十亿行X数百万列(真正意义的大数据存储数据库)
  • HBase 数据的最终持久化存储是基于 HDFS,存储容量可以随时在线扩容,而且数据存储的安全性、可靠性极高
  • HBase 支持对大数据进行随机、实时的读/写访问

HBase 优点

  • 容量巨大:HBase 的单表可以支持千亿行、百万列的数据规模,数据容量可以达到 TB 甚至 PB 级别
  • 良好的可扩展性:HBase 集群可以非常方便地实现集群容量扩展,主要包括数据存储节点扩展以及读写服务节点扩展
  • 稀疏性:HBase支持大量稀疏存储,即允许大量列值为空,并不占用任何存储空间
  • 高性能:HBase 目前主要擅长 于 LOTP(联机事务处理)场景,数据写操作性能强劲,对于随机单点读以及小范围的扫描读,其性能也能够得到保证。对于大范围的扫描读可以使用 MapReduce 提供的 API,以便实现更高效的并行扫描。
  • 多版本:HBase支持多版本特性,即一个 KV 可以同时保留多个版本,用户可以根据需要选择最新版本或者某个历史版本。
  • 支持过期:HBase支持 TTL 过期特性,用户只需要设置过期时间,超过TTL的数据就会被自动清理,不需要用户写程序手动删除。
  • Hadoop 原生支持:HBase 是 Hadoop 生态中的核心成员之一,很多生态组件都可以与其直接对接

HBase 缺点

  • HBase 不支持很复杂的聚合运算(如Join、GroupBy等)
  • HBase 不支持二级索引功能
  • HBase 原生不支持全局跨行事务(只支持单行事务模型)
posted @ 2021-12-22 23:29  追こするれい的人  阅读(251)  评论(0编辑  收藏  举报