04

1.用图与自己的话，简要描述Hadoop起源与发展阶段。

从与谷歌系统的关系，关键时间节点，1.x,2.x与3.x的区别，不同公司发行版本等方面来讲。

Hadoop与谷歌的关系：

简单点来说，就是Hadoop是继承了Google的MapReduce、GFS思想，开发出来的一套框架，后来又交给了Apache作为开源项目。
MapReduce诞生于谷歌实验室，MapReduce与GFS、BigTable并称为谷歌的三驾马车，、而Hadoop则是谷歌三驾马车的开源实现。

关键的时间节点：
2003年，Google发表了一篇技术学术论文谷歌文件系统（GFS）。GFS是google公司为了存储海量搜索数据而设计的专用文件系统。
2004年，Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。
2004年，Google又发表了一篇技术学术论文MapReduce。MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行分析运算。

2005年，Doug Cutting又基于MapReduce，在Nutch搜索引擎实现了该功能。
2006年，Yahoo雇用了Doug Cutting，Doug Cutting将NDFS和MapReduce升级命名为Hadoop，Yahoo开建了一个独立的团队给Goug Cutting专门研究发展Hadoop。

版本的区别：

不同发行版本的区别：

Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop的发行版除了有Apache hadoop外cloudera，hortonworks，mapR,华为,DKhadoop等都提供了自己的商业版本。商业发行版主要是提供了更为专业的技术支持，这对于大型企业更为重要，不同发行版都有自己的一些特点，本文就各发行版做简单对比介绍。

对比版选择：DKhadoop发行版、cloudera发行版、hortonworks发行版、MAPR发行版、华为hadoop发行版

1、DKhadoop发行版：有效的集成了整个HADOOP生态系统的全部组件，并深度优化，重新编译为一个完整的更高性能的大数据通用计算平台，实现了各部件的有机协调。因此DKH相比开源的大数据平台，在计算性能上有了高达5倍(最大)的性能提升。DKhadoop将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点)，极大的简化了集群的管理运维，增强了集群的高可用性、高可维护性、高稳定性。

2、Cloudera发行版：CDH是Cloudera的hadoop发行版，完全开源，比Apache hadoop在兼容性，安全性，稳定性上有增强。

3、€Hortonworks发行版：Hortonworks 的主打产品是Hortonworks Data Platform (HDP)，也同样是100%开源的产品，其版本特点：HDP包括稳定版本的Apache Hadoop的所有关键组件;安装方便，HDP包括一个现代化的，直观的用户界面的安装和配置工具。

4、MAPR发行版：mapR有免费和商业两个版本，免费版本在功能上有所减少。

5、华为hadoop发行版：华为的hadoop版本基于自研的Hadoop HA平台，构建NameNode、JobTracker、HiveServer的HA功能，进程故障后系统自动Failover，无需人工干预，这个也是对hadoop的小修补，远不如mapR解决的彻底

简述HBase与传统数据库的主要区别

1.hadoop是分布式平台,就把计算和存储都由hadoop自动调节分布到接入的计算机单元中
2.hbase是hadoop上实现的kv数据库
3.hbase+hadoop无需再与mysql搭配了,
而且kv数据库与传统关系数据库区别很大
4.hadoop+hbase是分布式计算与分布式数据库存储...

5.梳理HBase的结构与运行流程，以用图与自己的话进行简要描述，图中包括以下内容：

Master主服务器的功能
Region服务器的功能
Zookeeper协同的功能
Client客户端的请求流程
四者之间的相系关系
与HDFS的关联

一、HBase数据结构

1.1 RowKey

与 nosql 数据库们一样,RowKey 是用来检索记录的主键。访问 HBASE table 中的行，只

有三种方式：

1.通过单个 RowKey 访问

2.通过 RowKey 的 range（正则）

3.全表扫描

RowKey 行键 (RowKey)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为

10-100bytes)，在 HBASE 内部，RowKey 保存为字节数组。存储时，数据按照 RowKey 的字

典序(byte order)排序存储。设计 RowKey 时，要充分排序存储这个特性，将经常一起读取的

行存储放到一起。(位置相关性)

1.2 Column Family

列族：HBASE 表中的每个列，都归属于某个列族。列族是表的 schema 的一部分(而列

不是)，必须在使用表之前定义。列名都以列族作为前缀。例如 courses:history，courses:math 都属于 courses 这个列族。

1.3 Cell

由{rowkey, column Family:columu, version} 唯一确定的单元。cell 中的数据是没有类型

的，全部是字节码形式存贮。

关键字：无类型、字节码

1.4 Time Stamp

HBASE 中通过 rowkey和 columns 确定的为一个存贮单元称为cell。每个 cell都保存着

同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64 位整型。时间戳可以

由 HBASE(在数据写入时自动 )赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳

也可以由客户显式赋值。如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性

的时间戳。每个 cell 中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。

为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，HBASE 提供了两

种数据版本回收方式。一是保存数据的最后 n 个版本，二是保存最近一段时间内的版本（比

如最近七天）。用户可以针对每个列族进行设置。

1.5 命名空间

命名空间的结构:

1) Table：表，所有的表都是命名空间的成员，即表必属于某个命名空间，如果没有指定，

则在 default 默认的命名空间中。

2) RegionServer group：一个命名空间包含了默认的 RegionServer Group。

3) Permission：权限，命名空间能够让我们来定义访问控制列表 ACL（Access Control List）。

例如，创建表，读取表，删除，更新等等操作。

4) Quota：限额，可以强制一个命名空间可包含的 region 的数量。

二、HBase 原理

2.1 读流程

HBase 读数据流程如图 3 所示

1）Client 先访问 zookeeper，从 meta 表读取 region 的位置，然后读取 meta 表中的数据。meta 中又存储了用户表的 region 信息；

2）根据 namespace、表名和 rowkey 在 meta 表中找到对应的 region 信息；

3）找到这个 region 对应的 regionserver；

4）查找对应的 region；

5）先从 MemStore 找数据，如果没有，再到 BlockCache 里面读；

6）BlockCache 还没有，再到 StoreFile 上读(为了读取的效率)；

7）如果是从 StoreFile 里面读取的数据，不是直接返回给客户端，而是先写入 BlockCache，

再返回给客户端。

2.2 写流程

Hbase 写流程如下所示

图 2 HBase 写数据流程

1）Client 向 HregionServer 发送写请求；

2）HregionServer 将数据写到 HLog（write ahead log）。为了数据的持久化和恢复；

3）HregionServer 将数据写到内存（MemStore）；

4）反馈 Client 写成功。

5.3 数据 flush 过程

1）当 MemStore 数据达到阈值（默认是 128M，老版本是 64M），将数据刷到硬盘，将内存

中的数据删除，同时删除 HLog 中的历史数据；

2）并将数据存储到 HDFS 中；

3）在 HLog 中做标记点。

5.4 数据合并过程

1）当数据块达到 4 块，Hmaster 触发合并操作，Region 将数据块加载到本地，进行合并；

2）当合并的数据超过 256M，进行拆分，将拆分后的 Region 分配给不同的 HregionServer

管理；

3）当HregionServer宕机后，将HregionServer上的hlog拆分，然后分配给不同的HregionServer

加载，修改.META.；

4）注意：HLog 会同步到 HDFS。

posted @ 2021-10-19 16:35 曾泽华阅读(374) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

曾泽华

04

一、HBase数据结构

二、HBase 原理

公告