hbase实践之Rowkey设计之道

笔者从一开始接触hbase就在思考rowkey设计，希望rowkey设计得好，能够支持查询的需求。使用hbase一段时间后，再去总结一些hbase的设计方法，无外乎以下几种：

本质上都是避免热点问题。那么如何根据查询场景设计rowkey？rowkey设计之道是什么？

rowkey设计之道

hbase通过分治策略将数据分散到1-N个Region中，以满足业务的读写需求，合理的分配是关键，这就涉及rowkey的设计。

抛开缓存，只从rowke的角度来考虑读写，如果追求读取高效，则希望查询时的数据是相对集中的，扫描范围比较小；如果写入比较大，更多的是靠集群的性能来支撑，对负载均衡要求比较高，也就是要最大化发挥集群的性能。

rowkey的设计，主要是根据查询的需求来设计。

接下来进一步细化：如各种查询中是否多维查询？等等

梳理数据的特点，可以将理论与实践更好的结合。如果不知道数据的分布特点，仅仅根据字段的情况来设计rowkey，会出现这种情况：

我们根据省份这个字段进行hash，将数据分散到不同的region，但问题是我们的用户很可能就是集中在某几个省份，像江浙沪这种经济发达的大省，这种rowkey的设计，就是忽略了数据分布的特点，造成了热点问题。其他忽略数据分布的特点，还容易造成数据分析过程中的数据倾斜问题。

所以在rowkey设计中要注意数据的分布特点，同时考虑数据的生命周期。

rowkey索引设计，是rowkey设计之术。

rowkey设计之术，只见树木不见森林，很容易让人迷茫。从rowkey设计之道出发，让我们不再徘徊。

posted @ 2018-11-25 18:16 small_k 阅读(937) 评论(0) 收藏举报

刷新页面返回顶部