一致性哈希算法

时间:2014.07.17

地点:基地地板

----------------------------------------------------------------------------------------

一、为什么我们须要一致性哈希算法

考虑一个场景:server负载均衡问题。有n台server,比方n台cache。cache编号的选择和object的
匹配应该採取什么用的策略才干满足保证功能的需求。

假设我们採取例如以下简单的哈希映射关系:
hash(object) mod n

看起来这样一个系统工作正常,但考虑周到会有例如以下几个问题:
问题1:有一天我们须要添加一台server。这时我们须要改变哈希映射关系为:
hash(object) mod (n+1)
问题2:有一天我们须要删除一台server,这时我们须要改变哈希映射关系为:
hash(object) mod (n-1)

问题3:怎么样使得server负载分配均匀

如今我们看到麻烦来了,因为hash关系的变化。差点儿全部的object将会被hash到新的位置,即映射到新的server,这是一种灾难,于是我们就须要一致性哈希来改善这样的情况了。

----------------------------------------------------------------------------------------

二、一致性哈希

  一致性哈希能够保证当随意一台server添加到系统或从系统中删除时,只唯独相关的有限个object须要又一次匹配。即一致性哈希最大程度地防止object与server之前的匹配关系。

----------------------------------------------------------------------------------------

三、哈希空间(hash space)

    一般地,哈希函数将object映射到一个位的值上,哈希值取值范围为[0~2^32-1]。例如以下图所看到的。我们把哈希值域首尾相接联合成一个环形。于是也称呼为环形哈希空间。

                                                                   

                                                                    哈希空间

----------------------------------------------------------------------------------------

四、将object映射到哈希空间

如果有4个object,分别为object1~object4,如今我们使用哈希函数获得他们各自的key值。并映射到环形哈希空间中去。例如以下图所看到的:
hash(object1)=key1;
hash(object2)=key2;
hash(object3)=key3;
hash(object4)=key4;

                                      
                                                  

                                                  将object映射到哈希空间

----------------------------------------------------------------------------------------

五、将cache映射到哈希空间

我们採用相同的哈希函数。继续还将server也映射到该环形哈希空间中,
如果我们有3台serverA,B,C,哈希之后例如以下:
hash(cacheA)=keyA;
hash(cacheB)=keyB;
hash(cacheC)=keyC;

                                          

                                           将cache以相同的方式也映射到哈希空间

                                                                         

----------------------------------------------------------------------------------------

六、将object与cache匹配

  经过之前的步骤,如今object和cache都已经成功映射到环形哈希空间去了。

接下来,我们将决定objects怎么和cache形成映射:我们採取的策略是,将object按顺时针方向走。直到找到第一个cache,若果该cache是可用的,即形成object和cache匹配,否则继续寻找下一个cache。依据上述原则,在这里我们得到的匹配结果是:
    object1——>cacheA
    object2——>cacheC
    object3——>cacheC
    object4——>cacheB

----------------------------------------------------------------------------------------

七、添加或删减cache

  如今考虑两种场景:1.当某一cache崩溃移除系统 ,因为object4是映射在cacheB上的,如今cacheB将被移除了。那么如今object4得重现更新这个映射,我们仅仅须要简单的沿顺时针方向找到下一个可用的cache,在这里是cacheC就可以。如图,而不必所以映射关系全盘修改。

                           

                                              cacheB崩溃

当将cacheD增加在object2和object3之间时,B和D之间的object也需又一次映射。在这里object2将绑定到新增加的cacheD上。

例如以下图:

                                  

                                                     添加cacheD

----------------------------------------------------------------------------------------

八、虚节点

    上述情况可以非常好的解决添加删除server节点时对整个系统大动干戈的问题。

但还存在一个问题,那就是假设环形哈希空间上的cache较少的话,object的部署不会那么均匀。于是我们引入虚节点的概念。

 。它可以比較好的改善这一缺点。 虚节点是环形哈希空间上哥cache点的副本,每一个cache关联着几个环形上的虚节点,当我们添加一个节点时,这意味着我们实际上在环形空间上添加了几个这种虚节点,相同删除某一cache时。我们也将移除环形空间上
全部和它相关的虚节点。

继续考虑上面的样例,如今系统中有cachA和cacheC,引入虚节点。并如果各存在2份,于是在环形空间上。一起有4个虚节点。cacheA1和cacheA2代表cacheA。还有cacheC1和cacheC2代表C。例如以下图:于是,如今从object到虚节点的映射为:
     object1——>cacheA2;
     object2——>cacheA1;
     object3——>cacheC1;
     object4——>cacheC2
这样分配就会显得相对均匀。例如以下图:


     

九、一致性哈希算法的应用

  最后来个实际应用的样例。

问题描写叙述: 比如手机朋友网有n个server,为了方便用户的訪问会在server上缓存数据,因此用户每次訪问的时候最好能保持同一台server。

已有的做法是依据ServerIPIndex[QQNUM%n]得到请求的server,这样的方法非常方便将用户分到不同的server上去。可是假设一台server死掉了,那么n就变为了n-1,那么ServerIPIndex[QQNUM%n]与ServerIPIndex[QQNUM%(n-1)]基本上都不一样了,所以大多数用户的请求都会转到其它server,这样会发生大量訪问错误。


问: 怎样改进或者换一种方法,使得:
(1)一台server死掉后。不会造成大面积的訪问错误,
(2)原有的訪问基本还是停留在同一台server上。
(3)尽量考虑负载均衡。


显然,传统的办法题目已经给出,即用模余方法:做法非常easy。但存在非常多问题不满足需求。于是我们考虑一致性哈希算法。正如前面所述。


其他应用场景:
    在做server负载均衡时候可供选择的负载均衡的算法有非常多,包含:  轮循算法(Round Robin)、哈希算法(HASH)、最少连接算法(Least Connection)、响应速度算法(Response Time)、加权法(Weighted )等。当中哈希算法是最为经常使用的算法.
    最典型的应用场景就是: 有N台server提供缓存服务,须要对server进行负载均衡。将请求平均分发到每台server上,每台机器负责1/N的服务。


    经常使用的算法是对hash结果取余数 (hash() mod N):对机器编号从0到N-1,依照自己定义的hash()算法,对每一个请求的hash()值按N取模,得到余数i。然后将请求分发到编号为i的机器。

但这种算法方法存在致命问题。假设某一台机器宕机,那么应该落在该机器的请求就无法得到正确的处理,这时须要将当掉的server从算法从去除,此时候会有(N-1)/N的server的缓存数据须要又一次进行计算。假设新增一台机器,会有N /(N+1)的server的缓存数据须要进行又一次计算。对于系统而言,这一般是不可接受的颠簸(由于这意味着大量缓存的失效或者数据须要转移)。那么,怎样设计一个负载均衡策略,使得受到影响的请求尽可能的少呢?
    在Memcached、Key-Value Store、Bittorrent DHT、LVS中都採用了Consistent Hashing算法,能够说Consistent Hashing 是分布式系统负载均衡的首选算法。




版权声明:本文博客原创文章,博客,未经同意,不得转载。

posted @ 2015-07-06 15:10  mengfanrong  阅读(644)  评论(0编辑  收藏  举报