hbase数据刷写

触发flush操作的条件:

1)region中所有MenStore占用的内存超过相关阈值

当一个region中所有MenStore占用的内存大小超过刷写阈值,会触发一次刷写,hbase.hregion.memstore.flush.size 默认值为128M。我们每次调用put、delete都会去检查这个值。

如果我们的数据增加的很快,达到了 hbase.hregion.memstore.flush.size * hbase.hregion.memstore.block.multiplier 的大小,hbase.hregion.memstore.block.multiplier 默认值为4,也就是128*4=512MB的时候,除了触发MenStore的flush操作外,还会阻塞所有写入该Store的写操作。

2)RegionServer中MenStore占用内存总和大于相关阈值

hbase为RegionServer分配了一定的写内存,大小默认等于占用regionServer整个JVM内存使用量的40%(hbase_heapsize(RegionServer 占用的堆内存大小)* hbase.regionserver.global.memstore.size。)

如果整个regionServer的MenStore占用内存大于总和大于hbase.regionserver.global.memstore.size.lower.limit(默认值为0.95) * hbase.regionserver.global.memstore.size * hbase_heapsize 的时候,将会触发MenStore的Flush操作。

RegionServer级别的Flush策略是每次找到RegionServer中占用内存中最大的Region进行刷写,这个操作是循序进行的,直到总体内存的占用低于全局MenStore刷写的下限才会停止。如果达到了RegionServer级别的Flush,那么当前RegionServer的所有写操作都会被阻塞,而且这个阻塞可能会持续到分钟级别。

3)WAL数量大于相关阈值

WAL(预写日志),用来解决宕机之后的操作回复问题,数据到达Region之前,会先写入WAL,然后再写入MenStore。如果WAL的数量过大,就意味着MenStore未持久化到磁盘的数据越来越多。当RS挂掉的话,恢复时间就会变得很长。所以有必要在WAL数量到达一定阈值时,进行一次刷写。

WAL刷写策略是:找到最旧的文件,并找到这个WAL对应的regions,然后对这些regions进行刷写。

4)定期自动刷写

RegionServer启动的时候会启动一个线程PeriodicMemStoreFlusher,每隔一段时间去检查这个Regionerver的Region有没有超过一定的时间没有刷写。这个时间是由hbase.regionserver.optionalcacheflushinterval 参数控制的,默认是 3600000,也就是1小时会进行一次刷写。如果设定为0,则意味着关闭定时自动刷写。为了防止有过多的MenStore同时刷写,定期自动刷写会有0-5分钟的延迟。

5)数据更新超过一定阈值

如果某个Region更新的很频繁,既没有达到自动刷写阈值,也没有达到内存限制,但是内存中更新的数量已经很多了,比如超过 hbase.regionserver.flush.per.changes 参数配置,默认为30000000,那么也是会触发刷写的。

6)手动触发刷写

可以通过API接口或相关命令来触发MenStore的刷写,比如可以调用Admin接口提供的方法,分别对某张表、某个 Region 或者某个 RegionServer 进行刷写操作。

 

 

 

 

posted @ 2019-09-09 10:44  www555  阅读(1209)  评论(0编辑  收藏  举报