从0开始的hbase

2016马上要结束了,回顾一下这一年对hbase的学习历程。

1,年初hbase的状态

使用场景:主要是用来存储业务线的mysql表,增量同步到hbase,然后每天晚上全量导入hdfs做离线计算。 hbase集群状态:除了调大了regionserver的heap size。其他基本没有动。经常发生的问题是晚上高峰导表的时候,不时会有regionserver宕机。 故障恢复:非常慢,碰到问题像无头的苍蝇,各种重启,然后表各种RIT。年初的时候经历过一次故障,两个人折腾了一天,而且还导致了数据的丢失。 对hbase掌握情况:组里之前没人有对hbase有较为深入的了解,面对这些情况,所以决定拿出一个部分精力对hbase做一些学习,以便更好地为生产环境服务。

2,年末hbase的状态

使用场景:除了原有的业务表同步(增量写入,全量读取)以外,另外新增了各种数据导出业务,另外还有用户访问行为分析业务(增量写入,随机读取)。其实,hbase更适合这种随机读写业务,因为总的来说hbase全表扫描是很慢的。 hbase集群状态:regionserver宕机的情况大大减少,半年里发生的次数差不多三四次,都是客户端对hbase突然的大量请求导致的。 故障恢复:因为表处于RIT状态卡主导致无法读写的故障,恢复时间在10min以内,而且数据不会丢失。 对hbase掌握情况: 对split,compact,flush,客户端请求等流程有大致的了解,碰到问题,能够根据源码去找问题,解决问题。另外,对故障恢复有了一定的经验。

3,干过的事

梳理下来,主要的hbase做了以下事情:

1,使用LruBlockCache+BucketCache替换掉hbase默认使用的LruBlockCache。

LruBlockCache所有的内存都分配在Heap上,一般来说对于Region Server配置的内存不超过20G的情况下,采用LruBlockCache还能应付的过去。但是超过以后,GC的压力会很大,因为heap内存大了以后,Full GC时Stop the world的时间会很长,而一旦超过regionserver和zk的心跳时间,region server就死掉了。 采用LruBlockCache+BucketCache以后,相关的data block的索引,bloom过滤器等会存放在LruBlockCache(分配在堆上),而data block会存放在Bucket Cache上(这个不经过heap,直接分配在堆外内存上),由hbase自己去管理堆外内存,这样就避免了GC的压力,region server的稳定性增强了很多。

2,每天对需要导出的表做major compact。

我们hbase的使用场景是读多写少,hbase请求的高峰是0点全量导表的时候,而写入主要是增量同步数据。hbase默认是一周左右做一次major compaction。 major compaction会使得同一个region下的storeFile会合并成一个大的storeFile,所以在做major compaction的时候会耗费磁盘和cpu,并且时间可能会很长,而带来的好处是带来读性能的极大提升。为此,我们每天手工对需要的表做major compaction,而带来的效果也很明显,晚上导表时间减少了50%。

3,参数调整。

针对集群中每台regin server的region数已将近500,而正常情况每台regionserver应该在100-200左右。为此,将单个region的size(hbase.hregion.max.filesize)从默认的1G增到2G。 另外,针对集群的读写请求比例,对写请求相关的memstore size和读请求相关的block cache size参数做了对应的调整。

4,使用YCSB测试hbase集群

使用YCSB对hbase集群的对写性能做了摸底,并且通过测试验证参数调整效果。另外,在测试中发现,读写请求数据量的大小对读写性能有着非常重要的影响。

5,hbase运维

碰到region server当机了,表读写卡住了怎么办? 首先,不要慌,哈哈。一两台region server宕机,对集群没影响。备份好日志,先启动死掉的region server,然后慢慢分析日志就好了。一次region server宕机了,发现宕机之前有大量的flush,所以怀疑是写请求量增加导致的。但是当时,相关hbase读写请求的指标没有采集,所以没法验证,于是只好直接问组里小伙伴,然后发现真是这样。此次事件后,开始收集hbase各种指标。可以说,故障激励着我们进步和成长。 其次,碰到table在RIT状态时,首先用hbase hbck去查看是否有状态不一致,一旦发现有以后,可以尝试通过hbase hbck repair来修复。 最后,很多时候,table处于RIT状态,都是集群中一两台region server有异常导致的,这个时候可以让这台有问题的region server先下线。待恢复后,再上线。

总结

从当初到hbase一无所知,到现在基本能够保证线上运行,我们经历了好多,可是说是故障伴随我们成长。目前最大的欣慰就是,碰到问题大部分情况下能够通过查看源码来分析和解决问题。hbase水很深,未来的路还很长。正所谓:路漫漫其修远兮,吾将上下而求索~

posted @ 2016-12-10 23:09  超级核弹头  阅读(503)  评论(0编辑  收藏  举报