一致性哈希算法应用与分析
一致性哈希算法主要使用在分布式数据存储系统中,按照一定的策略将数据尽可能均匀分布到所有的存储节点上去,使得系统具有良好的负载均衡性能和扩展性。感觉一致性哈希与数据结构中的“循环队列”还是有一点联系的。
1.简单哈希算法
哈希(hash)计箅是常见的数据分布技术,其通过求模运算来计算哈希值,然后据此将数据映射到存储空间中。由于只是采用了简单的求模运算.使得简单哈希计算存在很多不足:
1)增删市点时,更新效率低。当系统中存储节点数量发生增加或减少时,映射公式将发生变化为hash(object)%(N±1),这将使得所有obiect的映射位置发生变化,整个系统数据对象的映射位置都需要重新进行计算,系统无法对外界访问进行正常响应,将导致系统处于崩溃状态。
2)平衡性差,未考虑节点性能差异。由于硬件性能的提升,新添加的节点具有更好的承载能力,如何对算法进行改进,使节点性能可以得到较好利用。
3)单调性不足。衡量数据分布技术的一项重要指标是单调性,单调性是指如果已经有一些内容通过哈希计算分派到了相应的缓冲中,当又有新的缓冲加入到系统中时,哈希的结果应能够保证原有已分配的内容可以被映射到新的缓冲中去,而不会被映射到旧的缓冲集合中的其他缓冲区。
2.一致性哈希算法的工作原理
2.1 数据保存
一致性哈希,是对简单哈希算法进行了修正,它的原理分为两步。
首先,对“存储节点”的哈希值进行计算,其将存储空间抽象为一个环。如下图中的1、2、3三个节点就可以理解为三个可以存储数据的“存储节点”。其次,对要存储的数据也进行同样的哈希计算,按顺时针方向将其映射到离其最近的节点上去。
2.2 节点失效情况
当有存储节点出现故障离线时,按照映射方法,受影响的仅仅为从环上故障节点开始逆时针方向至前一个节点之间区间的数据对象。而这些对象本身就是映射到故障节点之上的。
例如在存储节点4出现故障时,只会影响那些数据的哈希值在存储节点3到存储节点4哈希值之间的数据节点,影响不会进一步扩大。
2.3增加存储节点时
当有节点增加时,比如,在存储节点2和存储节点3之间重新添加一个存储节点5。受影响的也仅仅是存储节点5逆时针遍历直到存储节点2之间的数据对象,将这些重新映射到5上即可,因此,当有节点出现变动时,不会使得整个存储空间上的数据都进行重新映射。解决了简单哈希算法增删节点,重新映射所有数据带来的效
率低下的问题。
3.虚拟节点的概念
一致性哈希算法具有随机性。当存储节点数量较少时节点在环上分布不够均匀。为解决这个问题,提出了基于虚拟节点的改进算法,其核心思路是引入虚拟节点。
每个虚拟节点都有一个对应的物理节点,而每个物理节点可以对应若干个虚拟节点。
在2.1的图中有存储节点1、2、3、4可以看出分布不均匀。假定四个存储节点型号相同,可以说节点4的负载量最小的,节点3最大。为了负载均衡,可以由物理存储节点来引入了虚拟节点4''',如下图所示。可以将虚拟节点理解为一个“符号标记”,按照2.1中的规则将数据的保存在存储节点上,只是应在虚拟节点保存的数据实际保存在对应的物理节点4上。这样就在一定程度上解决了负载均衡。