hbase中region的大小和数量的重要影响

region数量的影响:

通常较少的region可使集群运行的更加平稳,官方指出,每个regionServer大约100个regions的时候效果最佳,理由如下:

1)hbase的一个特性MSLAB,它有助于防止堆内存的碎片化,减轻垃圾回收full gc的问题,默认是开启的。但是每个MenStore需要2MB,如果region过多,就算不储存数据,也会占用很多内存。

2)如果region过多,MenStore也过多,就会触发regionServer的限制,导致flush,就会对用户请求产生较大的影响,可能阻塞该regionServer上的更新操作。

3)HMaster需要花费大量的时间来分配和移动Region,且过多的region会增加zookeeper的负担。

4)hbase读入数据进行处理的mapreduce程序,过多的region会产生很多的map任务数量,默认情况下有设计的region数量决定。

region大小的影响:

hbase中的数据一开始会写入MenStore,超过配置之后,会flush到磁盘成为HStore文件,当HStore的数量超过配置之后,会启动compaction,将他们合并为一个HStore。当合并后的HStore大于max.filesize时,会触发分隔动作,将它切分为两个region。hbase.hregion.max.filesize不宜过大或过小,经过实战,生产高并发运行下,最佳大小5-10GB!关闭某些重要场景的hbase表的major_compact!在非高峰期的时候再去调用major_compact,这样可以减少split的同时,显著提供集群的性能,吞吐量、非常有用。

1)当hbase.hregion.max.filesize比较小时,触发split的机率更大,系统的整体访问服务会出现不稳定现象。

2当hbase.hregion.max.filesize比较大时,由于长期得不到split,因此同一个region内发生多次compaction的机会增加了。这样会降低系统的性能、稳定性,因此平均吞吐量会受到一些影响而下降。

posted @ 2019-09-11 10:17  www555  阅读(4401)  评论(1编辑  收藏  举报