HBase重点总结

　　HBase的存储特点为三层Map，第一层为rowKey，第二层为列名(包括列族和列后缀)，第三层就是版本(也就是时间戳)，不仅支持分布式存储，还支持高效随机读写

　　并且采取是列式存储，怎么体现的呢？这可以看hbase表在HDFS的存储目录结构，HBase的表是由多个region组织的，每个region负责存储基于rowKey一定范围的数据，其中每个region在HDFS上的体现也是一个目录，而region目录下都有以列命名的目录

　　由于HBase表的元数据信息管理依赖zookeeper，数据存储依赖HDFS，所以使用HBase服务之前，你需要先把zookeeper服务和HDFS启动起来

#三台都启动
zkServer.sh start

zkServer.sh status

# 启动HDFS
start-dfs.sh

#启动 hbase
start-hbase.sh

　　进入命令行：hbase shell，查看HBase表格元数据信息页面：http://master:16010，另外HBase表格存储数据的情况可以看HDFS监控页面：http://master:50070

　　HBase试卷

　　多版本查询和TTL设置

　　单个值是怎么存储在HBase的表中：单个值，它是存储在HRegionServer的region下面的column family下面的HFile下面的block，然后在block中是以keyvalue的形式存储

　　数据块存储的编译和压缩：HBase在创建表时提供了两个配置选项(都是针对列级别进行设置)，其中关注索引信息存储，比如rowKey过长或者某个column family含有很多column，则需要关注Block Encoder，创建表时通过DATA_BLOCK_ENCODING指定，并且推荐使用 FAST_DIFF, 如果是关注value信息存储，比如Value很大，则需要关注Compressors，创建表时通过COMPRESSION指定，一般推荐Snappy，如果不是热点数据，推荐GZ，因为这个压缩率高，但是压缩率高也意味着要更多cpu资源

　　数据检索过程过滤查询问题，也就是Bloom Filter，也是针对列进行设置的，创建表通过BLOOMFILTER指定，关注两个值，ROW和ROWCOL，我们知道每个ColumnFamily下的store会有多有HFile，默认情况下是会扫描所有的HFile的，但是如果设置Row，那么不含目标rowKey的 HFile就不会去扫描，而如果设置成ROWCOL，那么只包含目标rowKey和列后缀HFile才会去扫描，但是越精准就越需要存储空间和内存

　　HBase读缓存：在进行查询的过程中，优先会获取MemoryStore里缓存的值，这里面其实就之前写请求缓存的值，如果没有就获取Block Cache里的值，再没有，就会访问磁盘文件HFile中的值，在读频繁的场景下，你需要关注BlockCache的配置。。。。。读缓存有两种缓存策略：1.LruBlockCache，内存分配上是堆内存 2.BucketCache，内存分配上是系统内存，对于读缓存，缓存不可能是无限的，所以读缓存会有一个过期策略，分三种：1.FIFO(先进先出) 2.LRU(最近最少使用淘汰) 3.LFU(过去访问频率最低淘汰) ，并且这种策略下会给访问数据(Block)设定三个Block priority：1.Single access priority 第一次从HDFS加载到缓存 2.Muti access priority 再次访问 3.In-memory access priority：你可以理解为最高级别，访问多少次都不会被淘汰，比如hbase：meta表的列，这个在创建表格时，可以通过IN_MEMORY设置为true。。。。。上面提到的两种缓存策略中，HBase中默认是LruBlockCache，而BucketCache需要额外配置，其中这种缓存策略下还是依赖Lru缓存，当然BucketCache有种两种缓存模式，第一种，LRU缓存用于缓存Index Bloom等Meta block数据，BucketCache则用于缓存Data Block，第二种则是LRU作为一级缓存，Bucket作为二级缓存(承接LRU淘汰下来的block)

　　StoreFile合并机制：HBase有一个写缓存机制，满足条件后才flush数据到HFile，一旦时间一长，很容易产生很多小文件，而HBase是基于HDFS上实现高效随机读写的，小文件影响HDFS的性能，所以就有这个HFile的合并机制，在Major compactions合并过程中，这个时间就会真正删除数据，比如多余版本和过期数据，Major操作默认7天自动执行一次 ******手动操作*****

　　Region管理：主要是对region合理的切分以及合并region，其中避免热点写一个region，我们需要设置region的切分规则，这里主要包括预切分和自动切分两种机制，预切分等同创建表格时就指定规则进行切分region，比如通过SPLITS或者SPLITS_FILE指定区间进行切分，或者通过NUMREGIONS 和 SPLITALGO来指定region数据和切分规则，比如切分规则HexStringSplit，就是按照rowKey的十六进制进行切分。。。。。另外就是自动切分了，它也有两种自动切分策略：1.ConstantSizeRegionSplitPolicy(达到指定大小切分，默认10G) 2.IncreasingToUpperBoundRegionSplitPolicy(根据region数和配置的region值决定切分，这个是默认的策略) 3.KeyPrefixRegionSplitPolicy(前缀相同的rowKey放在同一region) 除了上面两种切分机制，你还可以自己执行切分命令， split 表 rowKey。。。。。当然region太多也不好，很容易触发StoreFile合并机制，也不利于元数据表格管理，很影响性能，造成region太多的原因就是预切分或者自动切分的规则不合理，比如Region file size太小，另外为了避免一个RegionServer上太多region，合并region可以通过手动执行merge_region，HBase有个Balancing机制，HMaster每隔5分钟会进行一次

　　HBase schema设计原则：1.每个region大小控制在10G和50G 2.每个table控制在50-100个region 3.每个table控制在1-3个column family(设计原则：从数据存储特性出发，比如这些数据要压缩) 4.每个column family命名最好要短，节省磁盘和内存空间

　　RowKey设计原则：建议短，控制在10-100字节，这样做可以提高HFile和MemStore内存的存储效率，另外设计时可以考虑操作系统的最佳性能，把RowKey设计成8字节的倍数（64位系统），另外还需要考虑大量相似key的请求对同一region热点写的问题：常见手段就是加盐(随机添加前缀，但是这种查询时不太方便)和Hashing(对rowKey取md5值)，除了这两种手段，当然在特殊场景下，比如时间戳，可以反转RowKey，除此外当然要考虑业务场景了，如果要把同一主域的网站放在同一region里，也可以反转RowKey

posted @ 2021-01-17 17:07 财经知识狂魔阅读(340) 评论(0) 编辑收藏举报

刷新页面返回顶部

财经知识狂魔

不要把自己逼到没有改变机会的绝境上再后悔自己浪费了青春

HBase重点总结

公告