Hbase介绍

简介

HBase 是一款高性能的非关系型分布式数据库（NoSQL），基于 Google 的 BigTable 架构，运行在 Hadoop 和 HDFS（Hadoop Distributed File System）之上。它专为大数据应用设计，提供快速的随机读写能力，适合处理大量的非结构化或半结构化数据。以下是对 HBase 的简单介绍，旨在帮助初学者理解其基本概念、结构和使用场景。

HBase 的核心概念

1. 表结构

行键（Row Key）：每行数据都有一个唯一的标识符，称为行键，用于数据的快速检索。
列族（Column Family）：数据按列族分组存储，列族内的数据物理存储在一起，优化了读写性能。列族在表创建时定义，并且难以修改。
列（Column）：列族内部可以动态添加列，无需预定义。
时间戳（Timestamp）：HBase 支持保存数据的多个版本，每个数据版本通过时间戳进行区分。
单元格（Cell）：表中的最小数据单位，由行键、列族、列限定符和时间戳确定。

2. 数据模型

HBase 的数据模型简单且灵活，允许用户按需添加列，而无需在数据库级别进行复杂的配置。每个单元格都可以存储数据的多个版本，使得它非常适合需要版本控制和历史记录的应用。

列族的重要性

列族是 HBase 中管理数据的核心方式。由于所有属于同一列族的列都存储在同一个文件中，因此相关数据的读写操作都能获得性能上的优化。合理地组织列族可以大幅提升性能，特别是在数据访问模式中经常同时访问同一列族的数据时。同时，列族还支持独立的配置，如压缩、缓存和版本管理，这些都是针对特定应用场景优化性能和存储的重要手段。
为了更直观地理解 HBase 的表结构，我们可以通过一个表的示例来展示它的行键、列族、列（列限定符）、时间戳以及单元格的概念。

假设我们有一个 HBase 表名为 Users，用于存储用户信息。这个表有两个列族：info 和 contact。下面是这个表的示意图：

Row Key	info:name	info:age	contact:email	contact:phone
user1	John (TS=3)	30 (TS=3)	john@example.com (TS=2)	123456 (TS=2)
user2	Alice (TS=3)	25 (TS=3)	alice@example.com (TS=2)	654321 (TS=2)

说明

Row Key：
- user1, user2：这是每行数据的唯一标识符，用于快速定位和检索数据。
列族：
- info：包含用户的基本信息，如名字和年龄。
- contact：包含用户的联系信息，如电子邮件和电话号码。
列（列限定符）：
- info:name、info:age、contact:email、contact:phone：每个列限定符定义了其所属列族中的具体列。
时间戳（TS）：
- TS=3、TS=2：这表明每个单元格数据的版本。时间戳较新的值覆盖旧值。
单元格：
- 每个单元格由行键、列族、列限定符和时间戳共同确定。例如，user1 在 info 列族的 name 列中有一个值 "John"，时间戳为 3。

数据存取方式

写入：当 John 的年龄更新为 30 时，新的年龄值会带有新的时间戳（例如 TS=3），并存入相应的单元格，旧数据可以根据配置保留或删除。
读取：读取数据时可以指定行键和列，如果需要，还可以指定时间戳来获取特定版本的数据。例如，获取 user1 的最新联系电话，HBase 将返回 123456。

这种结构非常适合那些需要高效读写大量非结构化数据的场景。HBase 通过优化行键的访问和利用列族的存储特性，提供了极高的操作性能，特别是在数据规模水平扩展到很大时。

Hive和Hbase都依赖hdfs

Hive和HBase虽然都利用了HDFS作为底层存储,但它们的设计目的和应用场景有所不同,这导致了HBase不支持SQL的原因。

数据模型不同
Hive采用了类似于传统数据库的表结构来组织数据,所以很自然地支持了类SQL语法。而HBase的数据模型是以稀疏、分布式的多维排序映射表(Bigtable)来组织数据,缺乏固定的Schema结构,更适合于无模式(Schema-less)的处理方式。
查询方式不同
Hive旨在针对大数据集做批量计算和统计分析,主要是海量数据的离线分析处理,适合较复杂的查询操作。而HBase更侧重于提供实时的读写访问支持,擅长点查询(Get)和范围查询(Scan),更多地用于数据的在线查询和数据服务。
访问方式不同
Hive查询是通过将HiveQL语句转换为MapReduce任务执行的,而HBase则是直接通过Client访问表中的数据,查询性能非常高。
设计理念不同
Hive继承了SQL的设计理念,提供类似于关系型数据库的操作接口。而HBase继承了Bigtable的思路和理念,摒弃了SQL方式,而是采用NoSQL的方式来管理非结构化和半结构化的海量数据。

因此,HBase在设计之初就没有考虑支持SQL,而是基于Key/Value模型进行数据存储和访问。如果在HBase中支持SQL接口,会与其简单高效的设计理念相违背。

当然,也不是说HBase完全不能支持SQL。事实上,已经有一些第三方中间件支持在HBase数据之上执行SQL查询,如Apache Phoenix、Kylin等。但这些中间件都有自身局限性,通常只支持有限的SQL子集。
是的,您总结得非常好。

HBase最适合的场景是存储和查询那些结构简单、访问模式比较单一的大数据,而不太适合复杂的关系型分析查询，并且Hbase不适合频繁数据更新的业务，HBase更擅长于一次写入、多次读取的数据操作模式。

具体来说,HBase适合作为:

数据存储
利用其线性可扩展的能力,将各种数据源或计算结果持久化存储在HBase中。
实时查询平台
HBase提供高效的点查询(get)和范围查询(scan)能力,可以对存储的数据进行低延迟的实时查询。
缓存层
将需要快速查询的热数据缓存在HBase,充当系统的缓存层。
消息队列
利用HBase的数据模型特点,可以把它作为一个分布式的持久消息队列使用。

而针对那些需要复杂的联查、聚合、过滤等关系型分析的场景,使用Hive/Spark等工具更为合适。HBase适合作为存储层,为这些工具提供底层数据支持。

所以您概括得很精准,HBase更多是用于存储和查询相对简单结构的数据,而不太适合做复杂的关系型数据分析查询,将其发挥在适合的场景才能最大化发挥其优势。

常见应用场景

实时大数据分析：如实时的日志分析，可以通过配置列族优化日志数据的读取效率。
时间序列数据：例如，存储和分析股票市场的交易数据或 IoT 设备的传感器数据。通过利用列族的多版本特性，可以高效地管理时间序列数据的多个版本。
用户行为分析：如社交媒体或电商平台的用户行为数据（点击、浏览、购买）。列族可以用来分别存储用户的基本信息、行为日志，以及交易历史，以优化查询和存储效率。

数据操作示例

写入数据

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Table;
import org.apache.hadoop.hbase.util.Bytes;

public class HBaseWriteExample {
    public static void main(String[] args) {
        Configuration config = HBaseConfiguration.create();
        try (Connection connection = ConnectionFactory.createConnection(config);
             Table table = connection.getTable(TableName.valueOf("myTable"))) {
            Put p = new Put(Bytes.toBytes("row1"));
            p.addColumn(Bytes.toBytes("myFamily"), Bytes.toBytes("someQualifier"), Bytes.toBytes("Some Value"));
            table.put(p);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

读取数据

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Table;
import org.apache.hadoop.hbase.util.Bytes;

public class HBaseReadExample {
    public static void main(String[] args) {
        Configuration config = HBaseConfiguration.create();
        try (Connection connection = ConnectionFactory.createConnection(config);
             Table table = connection.getTable(TableName.valueOf("myTable"))) {
            Get g = new Get(Bytes.toBytes("row1"));
            Result result = table.get(g);
            byte[] value = result.getValue(Bytes.toBytes("myFamily"), Bytes.toBytes("someQualifier"));
            String valueStr = Bytes.toString(value);
            System.out.println("GET: " + valueStr);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

posted on 2024-04-27 00:20 滚动的蛋阅读(36) 评论(0) 编辑收藏举报

刷新页面返回顶部

滚动的蛋