Redis官方集群规范

Redis集群规范

欢迎使用Redis集群规范。在这里，您将找到有关Redis Cluster的算法和设计原理的信息。本文档正在进行中，因为它与Redis的实际实施持续同步。

设计的主要属性和原理

Redis集群目标

Redis Cluster是Redis的分布式实现，其在设计中的重要性顺序为以下目标：

高达1000个节点的高性能和线性可扩展性。没有代理，使用异步复制，并且不对值执行合并操作。
可接受的写安全程度：系统尝试（以尽力而为的方式）保留源自与大多数主节点连接的客户端的所有写操作。通常，有一些小窗口，在这些窗口中，可能会丢失已确认的写入。当客户端位于少数分区中时，丢失确认写入的Windows更大。
可用性：Redis Cluster能够在大多数主节点可访问且每个不再可用的主节点上至少有一个可访问的从节点的分区中生存。此外，通过使用副本迁移，不再由任何从属复制的主控将从一个由多个从属覆盖的主控接收一个。

本文档中描述的内容是在Redis 3.0或更高版本中实现的。

已实施子集

Redis Cluster实现了Redis的非分布式版本中所有可用的单键命令。只要所有键都散列到同一插槽，就可以执行执行复杂的多键操作（如Set类型并集或交集）的命令。

Redis Cluster实现了一个称为哈希标签的概念，可用于强制将某些密钥存储在同一哈希槽中。但是，在手动重新分片期间，多键操作可能会在一段时间内变得不可用，而单键操作始终可用。

Redis Cluster不支持多个数据库，例如独立版本的Redis。只有数据库0，不允许使用SELECT命令。

Redis群集协议中的客户端和服务器角色

在Redis中，群集节点负责保存数据，并获取群集状态，包括将密钥映射到正确的节点。群集节点还能够自动发现其他节点，检测不工作的节点，并在需要时将从属节点提升为主节点，以便在发生故障时继续运行。

为了执行其任务，所有群集节点都使用TCP总线和称为Redis群集总线的二进制协议进行连接。使用群集总线，每个节点都连接到群集中的每个其他节点。节点使用八卦协议传播有关群集的信息，以便发现新节点，发送ping数据包以确保所有其他节点都正常工作，并发送需要发信号通知特定情况的群集消息。群集总线还用于在用户请求时跨群集传播Pub / Sub消息，并在用户请求时协调手动故障转移（手动故障转移不是Redis Cluster故障检测器而是由系统管理员直接发起的故障转移）。

由于群集节点无法代理请求，因此可以使用重定向错误-MOVED和将客户端重定向到其他节点-ASK。理论上，客户端可以自由地向集群中的所有节点发送请求，并在需要时进行重定向，因此不需要客户端保持集群的状态。但是，能够在键和节点之间缓存映射的客户端可以以合理的方式提高性能。

写安全

Redis Cluster在节点之间使用异步复制，最后一次故障转移将获得隐式合并功能。这意味着最后选择的主数据集最终将替换所有其他副本。在分区期间可能丢失写操作的时间总是很长。但是，对于连接到多数主机的客户端和连接少数主机的客户端，这些窗口有很大的不同。

与在少数主机上执行的写操作相比，Redis Cluster会更努力地保留与大多数主服务器连接的客户端执行的写操作。以下是导致故障期间导致大多数分区中收到的已确认写入丢失的方案示例：

写入可能到达主服务器，但是尽管主服务器可能能够答复客户端，但是写入可能不会通过在主服务器和从服务器节点之间使用的异步复制传播到从服务器。如果主机死亡，而写入没有到达从机，则如果主机无法访问足够长的时间以致提升其一个从机，则写入将永远丢失。在主节点完全突然故障的情况下，这通常很难观察到，因为主节点尝试在大约同一时间尝试答复客户端（带有写入的确认）和从节点（传播写入）。但是，这是现实世界中的失败模式。
从理论上讲，丢失写操作的另一种可能的失败模式是：

主服务器由于分区而无法访问。
它被其中一个奴隶进行了故障转移。
一段时间后，它可能会再次可达。
路由表已过期的客户端可能会先写入旧主机，然后再由集群将其转换为新主机的从机。

第二种故障模式不太可能发生，因为无法与足够多的其他主机通信的主节点有足够的时间来进行故障转移，并且该主节点将不再接受写操作，并且在分区固定后，仍会在少量时间内拒绝写操作允许其他节点通知配置更改。此故障模式还要求客户端的路由表尚未更新。

以分区的少数派为目标的写操作会丢失较大的窗口。例如，Redis群集会在少数主机和至少一个或多个客户端的分区上丢失大量写入，因为如果对主机进行故障转移，则发送到主机的所有写入可能会丢失。多数党。

具体来说，NODE_TIMEOUT要使一个主机进行故障转移，至少大多数主机必须无法访问该主机，因此，如果在此之前分区已固定，则不会丢失任何写操作。当分区的持续时间超过时NODE_TIMEOUT，到该点为止在少数方执行的所有写操作都可能会丢失。但是，Redis集群的少数派一方将在NODE_TIMEOUT不与多数派接触的情况下立即拒绝写入，因此存在一个最大窗口，在此之后，少数派将不再可用。因此，在那之后，不会再有写入被接受或丢失。

可用性

Redis群集在分区的少数部分不可用。在分区的大多数方面，假设每个不可达的主服务器至少有多数主服务器和一个从服务器，则集群将在NODE_TIMEOUT一段时间后再次可用，再加上从服务器被选举并对其主服务器进行故障转移所需的几秒钟时间（故障转移）通常在1或2秒内执行）。

这意味着Redis Cluster旨在承受群集中几个节点的故障，但是对于那些需要大量网络拆分而需要可用性的应用程序来说，它并不是一个合适的解决方案。

在由N个主节点组成的集群的示例中，每个节点都有一个从属节点，只要将单个节点分割开，集群的大部分将保持可用状态，并且有可能1-(1/(N*2-1))在两个节点处于同一状态时保持可用状态。分割开（在第一个节点发生故障后，我们N*2-1总共剩下节点，而没有副本的唯一主节点发生故障的概率为1/(N*2-1))。

例如，在具有5个节点且每个节点有一个从属节点的群集中，很1/(5*2-1) = 11.11%可能在将两个节点从多数分区中分离出来之后，该群集将不再可用。

由于Redis群集具有称为副本迁移的功能，因此在许多实际情况下，由于副本迁移到了孤立的主服务器（不再具有副本的主服务器），群集的可用性得以提高。因此，在每个成功的故障事件中，群集都可以重新配置从属布局，以便更好地抵抗下一次故障。

性能

在Redis群集中，节点不会将命令代理到给定密钥的正确节点，而是将客户端重定向到服务于密钥空间给定部分的正确节点。

最终，客户端获得群集的最新表示，以及哪个节点提供密钥的哪个子集，因此在正常操作期间，客户端直接联系正确的节点以发送给定命令。

由于使用了异步复制，因此节点不必等待其他节点的写入确认（如果未使用WAIT命令明确请求）。

同样，由于多键命令仅限于近键，因此除非重新分片，否则数据永远不会在节点之间移动。

正常操作的处理方式与单个Redis实例完全相同。这意味着在具有N个主节点的Redis集群中，随着设计线性扩展，您可以期望获得与单个Redis实例乘以N相同的性能。同时，查询通常是在单次往返中执行的，因为客户端通常会保留与节点的持久连接，因此延迟时间也与单个独立Redis节点的情况相同。

Redis Cluster的主要目标是在保持微弱但合理的数据安全性和可用性形式的同时，具有很高的性能和可伸缩性。

为什么避免合并操作

与Redis数据模型的情况一样，Redis Cluster设计避免了多个节点中相同键值对的版本冲突。Redis中的值通常很大；通常会看到具有数百万个元素的列表或排序集。数据类型在语义上也是复杂的。传输和合并这些类型的值可能是一个主要的瓶颈，并且/或者可能需要应用程序侧逻辑，包含用于存储元数据的附加内存的不小的投入。

这里没有严格的技术限制。CRDT或同步复制的状态机可以对类似于Redis的复杂数据类型进行建模。但是，此类系统的实际运行时行为将与Redis Cluster不同。Redis Cluster的设计旨在涵盖非集群Redis版本的确切用例。

Redis Cluster主要组件概述

密钥分配模型

密钥空间分为16384个插槽，有效地为16384个主节点的群集大小设置了上限（但是建议的最大节点大小约为1000个节点）。

群集中的每个主节点都处理16384个哈希槽的子集。当没有正在进行的集群重新配置时（即哈希槽从一个节点移动到另一个节点），该集群是稳定的。当群集稳定时，单个哈希槽将由单个节点提供服务（但是服务节点可以具有一个或多个从属设备，在发生网络分裂或故障的情况下可以替换该从属设备，并且可以用于扩展）可接受过时数据的读取操作）。

下面是用于将键映射到哈希槽的基本算法（有关此规则的哈希标签异常，请阅读下一段）：

HASH_SLOT = CRC16(key) mod 16384

CRC16指定如下：

名称：XMODEM（也称为ZMODEM或CRC-16 / ACORN）
宽度：16位
多边形：1021（实际上是x ¹⁶ + x ¹² + x ⁵ +1）
初始化：0000
反映输入字节：False
反射输出CRC：假
Xor常数以输出CRC：0000
输出“ 123456789”：31C3

在16个CRC16输出位中使用了14个（这就是为什么上面的公式中有16384模运算的原因）。

在我们的测试中，CRC16在16384个插槽中均匀分配不同种类的密钥方面表现出色。

注意：本文附录A中提供了所用CRC16算法的参考实现。

键哈希标签

为了实现哈希标记而使用的哈希槽的计算存在例外。哈希标签是一种确保在同一哈希槽中分配多个密钥的方法。这用于在Redis Cluster中实现多键操作。

为了实现哈希标签，在某些情况下，密钥的哈希槽以略有不同的方式计算。如果密钥包含一个“{...}”图案仅之间子 {和}，以获得散列时隙被散列。但是，由于可能存在多次出现{或}以下规则很好地指定了算法：

如果键包含一个{字符。
如果有一个}字符的右{
AND如果在的第一次出现{和的第一次出现之间存在一个或多个字符}。

然后，不对哈希进行哈希处理，仅对哈希的第一次出现{和之后的第一次出现之间的}内容进行哈希处理。

例子：

这两个键{user1000}.following和{user1000}.followers将哈希到相同的哈希槽，因为只有子字符串user1000将被哈希以计算哈希槽。
对于密钥foo{}{bar}，整个密钥将像通常那样被散列，因为第一次出现{是在其后，}在右边是中间没有字符的位置。
对于键foo{{bar}}zap，子字符串{bar将被散列，因为它是第一次出现{和第一次出现之间的子字符串}。
对于密钥foo{bar}{zap}的子串bar将被散列，由于算法停止在所述第一有效或无效（无字节内）匹配{和}。
从该算法得出的结论是，如果密钥以开头{}，则可以保证将其作为一个整体进行哈希处理。当使用二进制数据作为键名时，这很有用。

添加哈希标签例外，以下是该HASH_SLOT功能在Ruby和C语言中的实现。

Ruby示例代码：

def HASH_SLOT(key)
    s = key.index "{"
    if s
        e = key.index "}",s+1
        if e && e != s+1
            key = key[s+1..e-1]
        end
    end
    crc16(key) % 16384
end

C示例代码：

unsigned int HASH_SLOT(char *key, int keylen) {
    int s, e; /* start-end indexes of { and } */

    /* Search the first occurrence of '{'. */
    for (s = 0; s < keylen; s++)
        if (key[s] == '{') break;

    /* No '{' ? Hash the whole key. This is the base case. */
    if (s == keylen) return crc16(key,keylen) & 16383;

    /* '{' found? Check if we have the corresponding '}'. */
    for (e = s+1; e < keylen; e++)
        if (key[e] == '}') break;

    /* No '}' or nothing between {} ? Hash the whole key. */
    if (e == keylen || e == s+1) return crc16(key,keylen) & 16383;

    /* If we are here there is both a { and a } on its right. Hash
     * what is in the middle between { and }. */
    return crc16(key+s+1,e-s-1) & 16383;
}

集群节点属性

每个节点在集群中都有唯一的名称。节点名称是一个160位随机数的十六进制表示形式，它是在节点首次启动时获得的（通常使用/ dev / urandom）。节点将其ID保存在节点配置文件中，并将永久使用相同的ID，或者至少在系统管理员未删除节点配置文件或通过CLUSTER RESET命令请求硬重置的情况下使用该ID 。

节点ID用于标识整个集群中的每个节点。给定节点可以更改其IP地址，而无需也更改节点ID。群集还能够检测IP /端口的更改，并使用在群集总线上运行的八卦协议进行重新配置。

节点ID并不是与每个节点关联的唯一信息，而是唯一始终全局一致的信息。每个节点还具有以下关联的信息集。一些信息与该特定节点的集群配置详细信息有关，并且最终在整个集群中保持一致。某些其他信息（例如上次对节点执行ping操作）是每个节点本地的。

每个节点都维护有关集群中其他节点的以下信息：节点ID，节点的IP和端口，一组标志，如果将节点标志为slave，则该节点的主节点是什么？对节点执行ping操作，最后一次接收到pong时，将显示该节点的当前 配置时期（在本规范的后面部分进行说明），链接状态以及最后一组哈希槽。

CLUSTER NODES文档中描述了所有节点字段的详细说明。

可以将CLUSTER NODES命令发送到集群中的任何节点，并根据查询到的节点对集群的本地视图，提供集群的状态以及每个节点的信息。

以下是发送到三个节点的小型集群中的主节点的CLUSTER NODES命令的示例输出。

$ redis-cli cluster nodes
d1861060fe6a534d42d8a19aeb36600e18785e04 127.0.0.1:6379 myself - 0 1318428930 1 connected 0-1364
3886e65cc906bfd9b1f7e7bde468726a052d1dae 127.0.0.1:6380 master - 1318428930 1318428931 2 connected 1365-2729
d289c575dcbc4bdd2931585fd4339089e461a27d 127.0.0.1:6381 master - 1318428931 1318428931 3 connected 2730-4095

在上面的清单中，不同的字段按顺序排列：节点ID，地址：端口，标志，发送的最后ping，收到的最后pong，配置时期，链接状态，插槽。一旦我们谈到Redis Cluster的特定部分，将涵盖上述字段的详细信息。

集群总线

每个Redis Cluster节点都有一个额外的TCP端口，用于接收来自其他Redis Cluster节点的传入连接。此端口与用于从客户端接收传入连接的普通TCP端口处于固定偏移量。要获得Redis Cluster端口，应在常规命令端口中添加10000。例如，如果Redis节点正在端口6379上侦听客户端连接，则群集总线端口16379也将打开。

节点到节点的通信仅使用群集总线和群集总线协议进行：由不同类型和大小的帧组成的二进制协议。未公开记录集群总线二进制协议，因为它不打算供外部软件设备使用该协议与Redis Cluster节点通信。但是，您可以通过阅读Redis Cluster源代码中的cluster.h和cluster.c文件来获取有关集群总线协议的更多详细信息。

集群拓扑

Redis Cluster是一个完整的网格，其中每个节点都使用TCP连接与其他每个节点连接。

在N个节点的群集中，每个节点具有N-1个传出TCP连接和N-1个传入连接。

这些TCP连接始终保持活动状态，并且不会按需创建。当节点希望响应集群总线中的ping操作而收到pong响应时，在等待足够长的时间以将该节点标记为不可访问之前，它将尝试通过从头重新连接来刷新与该节点的连接。

尽管Redis Cluster节点形成一个完整的网格，但节点使用八卦协议和配置更新机制，以避免在正常情况下在节点之间交换太多消息，因此交换的消息数量不是指数级的。

节点握手

节点始终接受群集总线端口上的连接，即使收到ping节点不受信任，甚至会在收到ping时回复ping。但是，如果不将发送节点视为群集的一部分，则接收节点将丢弃所有其他数据包。

一个节点仅以两种方式将另一个节点作为群集的一部分：

节点是否向其显示MEET消息。Meet消息与PING消息完全一样，但是会强制接收者接受该节点作为群集的一部分。只有系统管理员通过以下命令请求节点时，节点才会将MEET消息发送到其他节点：

群集会议IP端口
如果已经受信任的节点将闲聊该节点，则该节点还将另一个节点注册为群集的一部分。因此，如果A知道B，B知道C，则最终B会向A发送有关C的八卦消息。发生这种情况时，A会将C注册为网络的一部分，并尝试与C连接。

这意味着只要我们在任何连接图中加入节点，它们最终将自动形成完全连接图。这意味着群集能够自动发现其他节点，但前提是存在系统管理员强制建立的信任关系。

该机制使群集更健壮，但可以防止更改IP地址或其他与网络相关的事件后，不同的Redis群集意外混合。

重定向和重新分片

移动重定向

Redis客户端可以自由地向集群中的每个节点（包括从节点）发送查询。节点将分析查询，如果可接受（即，在查询中仅提及一个键，或提及的多个键全部位于同一哈希槽中），它将查找哪个节点负责哈希槽一个或多个键所属的位置。

如果哈希槽由节点提供服务，则查询将被简单地处理，否则节点将检查其内部哈希槽到节点的映射，并使用MOVED错误回复客户端，如以下示例所示：

GET x
-MOVED 3999 127.0.0.1:6381

错误包括密钥的哈希槽（3999）和可以为查询提供服务的实例的ip：port。客户端需要将查询重新发出到指定节点的IP地址和端口。请注意，即使客户端在重新发出查询之前等待了很长时间，并且与此同时，群集配置已更改，如果哈希槽3999现在由另一个节点提供服务，则目标节点将再次发出MOVED错误答复。如果联系的节点没有更新的信息，则会发生相同的情况。

因此，尽管从群集的角度来看，节点是由ID标识的，但我们尝试简化与客户端的接口，只是公开了哈希插槽和IP：port对标识的Redis节点之间的映射。

客户端不是必需的，但应尝试记住127.0.0.1:6381为哈希槽3999提供服务。这样，一旦需要发出新命令，它就可以计算目标密钥的哈希槽，并有更大的机会选择正确的节点。

一种替代方法是，在收到MOVED重定向后，仅使用CLUSTER NODES或CLUSTER SLOTS命令刷新整个客户端群集布局。遇到重定向时，很可能重新配置了多个插槽，而不仅仅是一个插槽，因此尽快更新客户端配置通常是最佳策略。

请注意，当群集稳定时（配置中没有正在进行的更改），最终所有客户端都将获得哈希槽图->节点，从而使群集高效，客户端直接寻址正确的节点，而无需重定向，代理或其他单个故障点实体。

客户端还必须能够处理本文档后面介绍的-ASK重定向，否则它不是完整的Redis Cluster客户端。

集群实时重新配置

Redis Cluster支持在集群运行时添加和删除节点的功能。添加或删除节点被抽象为相同的操作：将哈希槽从一个节点移动到另一个节点。这意味着可以使用相同的基本机制来重新平衡群集，添加或删除节点等等。

要将新节点添加到群集，请将一个空节点添加到群集，并将某些哈希槽集从现有节点移至新节点。
为了从群集中删除节点，将分配给该节点的哈希槽移至其他现有节点。
为了重新平衡群集，在节点之间移动一组给定的哈希槽。

该实现的核心是能够移动哈希槽的能力。从实际的角度来看，哈希槽只是一组密钥，因此Redis Cluster在重新分片期间的真正作用是将密钥从一个实例移动到另一个实例。移动哈希槽意味着将碰巧发生哈希的所有键移动到该哈希槽中。

要了解它是如何工作的，我们需要显示CLUSTER用于在Redis Cluster节点中操纵插槽转换表的子命令。

可以使用以下子命令（在这种情况下，其他子命令无效）：

集群ADDSLOTS slot1 [ slot2 ] ... [slotN]
集群DELSLOTS slot1 [ slot2 ] ... [slotN]
CLUSTER SETSLOT插槽NODE节点
CLUSTER SETSLOT插槽MIGRATING节点
CLUSTER SETSLOT插槽IMPORTING节点

前两个命令ADDSLOTS和和DELSLOTS只是用于向Redis节点分配（或删除）插槽。分配插槽意味着告诉给定的主节点它将负责为指定的哈希插槽存储和提供内容。

分配散列插槽后，它们将使用八卦协议在群集中传播，如稍后在配置传播部分中指定的那样。

ADDSLOTS当从头开始创建新集群时，通常使用该命令为每个主节点分配所有16384个哈希槽的子集。

将DELSLOTS主要用于群集配置的人工修改或用于调试任务：在实践中很少使用。

SETSLOT如果使用SETSLOT <slot> NODE表单，则该子命令用于将插槽分配给特定的节点ID 。否则，插槽可以在两种特殊状态进行设置MIGRATING和IMPORTING。使用这两个特殊状态是为了将哈希槽从一个节点迁移到另一个节点。

当将插槽设置为MIGRATING时，该节点将接受与该哈希插槽有关的所有查询，但是仅当所讨论的键存在时，否则该查询将使用-ASK重定向转发到作为迁移目标的节点。
如果将插槽设置为IMPORTING，则该节点将接受与该哈希插槽有关的所有查询，但前提是请求之前带有ASKING命令。如果ASKING客户端未给出命令，则查询会通过-MOVED重定向错误重定向到实际的哈希槽所有者，这通常会发生。

让我们通过一个哈希槽迁移示例使这一点更加清楚。假设我们有两个Redis主节点，分别称为A和B。我们想将哈希槽8从A移到B，因此我们发出如下命令：

我们发送B：群集设置8导入A
我们发送A：集群SETSLOT 8迁移B

每当其他所有节点都使用属于哈希槽8的键查询客户机时，所有其他节点将继续将客户机指向节点“ A”，因此发生的情况是：

关于现有键的所有查询均由“ A”处理。
所有关于A中不存在的键的查询都由“ B”处理，因为“ A”会将客户端重定向到“ B”。

这样，我们不再在“ A”中创建新键。同时，redis-trib在分片和Redis群集配置期间使用的一个特殊程序会将哈希插槽8中的现有密钥从A迁移到B。这是使用以下命令执行的：

CLUSTER GETKEYSINSLOT slot count

上面的命令将count在指定的哈希槽中返回密钥。对于返回的每个密钥，redis-trib向节点“ A”发送一个MIGRATE命令，该命令将以原子方式将指定的密钥从A迁移到B（两个实例在迁移密钥所需的时间（通常非常短的时间）内都处于锁定状态，因此存在没有比赛条件）。这是MIGRATE的工作方式：

MIGRATE target_host target_port key target_database id timeout

MIGRATE将连接到目标实例，发送密钥的序列化版本，并在收到OK代码后，将删除其自身数据集中的旧密钥。从外部客户端的角度来看，密钥在任何给定时间都存在于A或B中。

在Redis Cluster中，无需指定0以外的数据库，但是 MIGRATE是通用命令，可用于不涉及Redis Cluster的其他任务。即使移动诸如长列表之类的复杂键时，MIGRATE也已被优化为尽可能快，但是在Redis群集中，如果使用数据库的应用程序中存在延迟限制，则重新配置存在大键的群集不是明智的过程。

迁移过程最终完成后，该SETSLOT <slot> NODE <node-id>命令将发送到迁移中涉及的两个节点，以将插槽再次设置为其正常状态。通常将同一命令发送给所有其他节点，以避免等待新配置在群集中自然传播。

ASK重定向

在上一节中，我们简要讨论了ASK重定向。为什么我们不能简单地使用MOVED重定向？因为虽然MOVED意味着我们认为哈希槽由另一个节点永久提供，并且应该对指定节点尝试下一个查询，所以ASK意味着仅将下一个查询发送到指定节点。

之所以需要这样做，是因为下一个有关哈希槽8的查询可能是关于仍在A中的键的，因此我们始终希望客户端尝试A，然后在需要时尝试B。由于只有16384个可用的哈希槽中有一个发生，因此群集上的性能下降是可以接受的。

我们需要强制该客户端行为，以便确保客户端仅在尝试了A之后才尝试节点B，如果客户端在发送查询之前发送ASKING命令，则节点B将仅接受设置为IMPORTING的插槽的查询。

基本上，ASKING命令在客户端上设置一次性标志，该标志会强制节点为有关IMPORTING插槽的查询提供服务。

从客户端的角度来看，ASK重定向的完整语义如下：

如果收到ASK重定向，则仅发送已重定向到指定节点的查询，而继续将后续查询发送到旧节点。
使用ASKING命令启动重定向的查询。
尚未更新本地客户端表以将哈希槽8映射到B。

一旦哈希槽8迁移完成，A将发送MOVED消息，并且客户端可以将哈希槽8永久映射到新的IP和端口对。请注意，如果有错误的客户端较早执行地图，则这不是问题，因为它不会在发出查询之前发送ASKING命令，因此B将使用MOVED重定向错误将客户端重定向到A。

在CLUSTER SETSLOT 命令文档中，以相似的术语解释了插槽迁移，但是使用了不同的措辞（为了文档中的冗余）。

客户端首次连接和重定向处理

虽然有可能有一个Redis Cluster客户端实现不记住内存中的插槽配置（插槽号和为其服务的节点的地址之间的映射），并且只能通过联系等待重定向的随机节点来工作，但这样的客户端可以效率很低。

Redis Cluster客户端应尝试足够聪明以记住插槽配置。但是，此配置不需要最新。由于联系错误的节点只会导致重定向，因此应该触发客户端视图的更新。

在两种不同情况下，客户端通常需要获取插槽和映射节点地址的完整列表：

在启动时为了填充初始插槽配置。
当MOVED接收到重定向。

请注意，客户端可以MOVED通过仅更新其表中已移动的插槽来处理重定向，但是，这通常效率不高，因为经常会同时修改多个插槽的配置（例如，如果将从属升级为主机，则所有插槽都将服务由旧主人重新映射）。MOVED通过从头获取插槽到节点的完整映射，对重定向做出反应要简单得多。

为了检索插槽配置，Redis Cluster提供了CLUSTER NODES命令的替代方法，该方法不需要解析，而仅向客户端提供严格需要的信息。

新命令称为CLUSTER SLOTS，它提供插槽范围的数组，并且相关的主节点和从节点服务于指定范围。

以下是CLUSTER SLOTS的输出示例：

127.0.0.1:7000> cluster slots
1) 1) (integer) 5461
   2) (integer) 10922
   3) 1) "127.0.0.1"
      2) (integer) 7001
   4) 1) "127.0.0.1"
      2) (integer) 7004
2) 1) (integer) 0
   2) (integer) 5460
   3) 1) "127.0.0.1"
      2) (integer) 7000
   4) 1) "127.0.0.1"
      2) (integer) 7003
3) 1) (integer) 10923
   2) (integer) 16383
   3) 1) "127.0.0.1"
      2) (integer) 7002
   4) 1) "127.0.0.1"
      2) (integer) 7005

返回数组的每个元素的前两个子元素是范围的开始-结束时隙。附加元素表示地址端口对。第一个地址端口对是为该插槽提供服务的主设备，其他地址端口对是为同一插槽提供服务的所有从设备，这些从设备均未处于错误状态（即未设置FAIL标志）。

例如，输出的第一个元素说127.0.0.1:7001为从5461到10922（包括开始和结束）的插槽提供服务，并且可以按127.0.0.1:7004扩展与从属节点联系的只读负载。

如果群集配置不正确，则不能保证CLUSTER SLOTS返回覆盖整个16384个插槽的范围，因此客户端应初始化使用NULL对象填充目标节点的插槽配置图，并在用户尝试执行有关键的命令时报告错误。属于未分配的插槽。

如果发现未分配插槽，则在将错误返回给调用方之前，客户端应尝试再次获取插槽配置，以检查集群现在是否已正确配置。

多键操作

使用哈希标签，客户端可以自由使用多键操作。例如，以下操作有效：

MSET {user:1000}.name Angela {user:1000}.surname White

当正在进行密钥所属的哈希槽的重新分片时，多密钥操作可能变得不可用。

更具体地，即使在重新分片期间，针对全部存在且仍仍散列到同一插槽（源节点或目标节点）的键的多键操作仍然可用。

对不存在或在重新分片期间在源节点和目标节点之间拆分的键进行的操作将产生-TRYAGAIN错误。客户端可以在一段时间后尝试操作，或者报告错误。

一旦指定哈希槽的迁移终止，所有所有多键操作都可再次用于该哈希槽。

使用从属节点扩展读取

通常，从属节点会将客户端重定向到给定命令所涉及的哈希槽的权威主机，但是客户端可以使用从属节点来使用READONLY命令扩展读取。

READONLY告诉Redis Cluster从节点，客户端可以读取可能过时的数据，并且对运行写查询不感兴趣。

当连接处于只读模式时，仅当操作涉及从属主节点不提供的密钥时，群集才会向客户端发送重定向。这可能是因为：

客户端发送了有关此从属主机从未使用的哈希槽的命令。
集群已重新配置（例如重新分片），并且从服务器不再能够为给定的哈希槽提供命令。

发生这种情况时，客户端应按照前几节中的说明更新其哈希映射。

可以使用READWRITE命令清除连接的只读状态。

容错能力

心跳和八卦消息

Redis Cluster节点不断交换ping和pong数据包。这两种报文具有相同的结构，并且都携带重要的配置信息。唯一的实际区别是消息类型字段。我们将ping和pong数据包之和称为心跳数据包。

通常，节点发送ping数据包，这将触发接收者以pong数据包进行回复。但是，这不一定是正确的。节点可能仅发送pong数据包就可以向其他节点发送有关其配置的信息，而不会触发答复。例如，这对于尽快广播新配置很有用。

通常，一个节点每秒将对几个随机节点执行ping操作，以便每个节点发送的ping数据包（和接收到的pong数据包）的总数为恒定数量，而与群集中节点的数量无关。

但是，每个节点都确保对所有未发送ping或收到乒乓球时间超过一半的其他节点执行ping NODE_TIMEOUT操作。在NODE_TIMEOUT流逝之前，节点还尝试将TCP链接与另一个节点重新连接，以确保仅由于当前TCP连接中存在问题，才不会认为节点不可达。

如果NODE_TIMEOUT设置为较小的数字并且节点数（N）非常大，则全局交换的消息数可能会很大，因为每个节点都会尝试对每隔一半的没有新鲜信息的其他节点执行ping操作。NODE_TIMEOUT时间。

例如，在一个节点超时设置为60秒的100个节点的群集中，每个节点将尝试每30秒发送99次ping，每秒的ping总数为3.3。乘以100个节点，这就是整个集群每秒330 ping。

有多种方法可以减少消息数量，但是目前还没有关于Redis Cluster故障检测当前使用的带宽的报告问题，因此目前使用了显而易见的直接设计。请注意，即使在上述示例中，每秒交换的330个数据包也会平均分配给100个不同的节点，因此每个节点接收的流量都是可以接受的。

心跳包内容

Ping和pong数据包包含所有类型的数据包（例如，请求故障转移投票的数据包）通用的标头，以及专用于Ping和Pong数据包的特殊八卦节。

通用标头具有以下信息：

节点ID，这是一个160位的伪随机字符串，在第一次创建节点时被分配，并且在Redis Cluster节点的整个生命周期中都保持不变。
发送节点的currentEpoch和configEpoch字段用于挂载Redis Cluster使用的分布式算法（这将在下一部分中详细说明）。如果节点是从属节点，则它configEpoch是configEpoch其主节点中最后一个已知的节点。
节点标志，指示该节点是从节点，主节点还是其他单位节点信息。
发送节点服务的哈希槽的位图，或者如果该节点是从属节点，则为其主节点服务的槽的位图。
发送方TCP基本端口（即Redis用来接受客户端命令的端口；将10000添加到该端口以获得集群总线端口）。
从发件人的角度来看，群集的状态（关闭或正常）。
发送节点的主节点ID（如果它是从节点）。

乒乓球和乒乓球包还包含一个八卦部分。本节向接收者提供发送者节点对集群中其他节点的看法。闲话部分仅包含有关发送者已知的节点集中的一些随机节点的信息。闲话部分提到的节点数量与群集大小成正比。

对于八卦部分中添加的每个节点，将报告以下字段：

节点ID。
节点的IP和端口。
节点标志。

闲话部分允许接收节点从发送者的角度获取有关其他节点状态的信息。这对于故障检测和发现集群中的其他节点都是有用的。

故障检测

Redis群集故障检测用于识别大多数节点何时不再可访问主节点或从节点，然后通过将从节点提升为主角色来做出响应。如果无法进行从属升级，则群集将处于错误状态，以停止接收来自客户端的查询。

如上所述，每个节点都获取与其他已知节点关联的标志列表。有两个用于故障检测的标志称为PFAIL和FAIL。PFAIL表示可能的失败，并且是未确认的失败类型。FAIL表示节点发生故障，并且大多数主机在固定时间内确认了此情况。

PFAIL标志：

PFAIL当节点不可访问超过NODE_TIMEOUT时间时，该节点会用该标志来标记另一个节点。主节点和从节点都可以将另一个节点标记为PFAIL，而不管其类型如何。

Redis群集节点的不可到达性的概念是，我们有一个活动的ping（我们发送的ping尚未收到答复）的等待时间长于NODE_TIMEOUT。为了使该机制起作用，NODE_TIMEOUT与网络往返时间相比，该机制必须更大。为了增加正常操作期间的可靠性，节点中的一半将在NODE_TIMEOUT没有回复ping的情况下尽快尝试与群集中的其他节点重新连接。这种机制可确保连接保持活动状态，因此断开的连接通常不会导致节点之间的错误故障报告。

失败标志：

该PFAIL独标志就是本地信息的每个节点拥有约的其他节点，但它不足以触发一个奴隶推广。对于要考虑的节点，该PFAIL条件需要升级为FAIL条件。

如本文档的节点心跳部分中概述的那样，每个节点都会向其他每个节点发送闲话消息，包括一些随机已知节点的状态。每个节点最终都会为每个其他节点接收一组节点标志。这样，每个节点都有一种向其他节点发送有关已检测到的故障情况的信号的机制。

甲PFAIL条件升级为FAIL条件时，下面的一组条件满足：

一些节点，我们会打电话给A，具有标记为其它基站PFAIL。
节点A通过八卦节从集群中大多数主节点的角度收集了有关B状态的信息。
大多数大师会及时发出信号PFAIL或FAIL条件NODE_TIMEOUT * FAIL_REPORT_VALIDITY_MULT。（在当前实现中，有效性因子设置为2，因此仅为时间的两倍NODE_TIMEOUT）。

如果满足以上所有条件，则节点A将：

将节点标记为FAIL。
FAIL向所有可达节点发送消息。

该FAIL消息将强制每个接收节点标记该节点处于FAIL状态，无论它是否已标记该节点处于PFAIL状态。

请注意，FAIL标志通常是一种方法。也就是说，节点可以从PFAIL转到FAIL，但是FAIL仅在以下情况下可以清除标志：

该节点已经可以访问，并且是从节点。在这种情况下，FAIL可以清除该标志，因为从站不会进行故障转移。
该节点已经可以访问，并且是不为任何插槽提供服务的主节点。在这种情况下，FAIL可以清除该标志，因为没有插槽的主机不会真正参与集群，并且正在等待配置以加入集群。
该节点已经可以访问并且是主节点，但是经过了很长时间（是的N倍NODE_TIMEOUT），而没有任何可检测到的从属升级。最好重新加入集群并在这种情况下继续。

值得注意的是，尽管PFAIL-> FAIL过渡使用某种形式的协议，但所使用的协议却很薄弱：

节点会在一段时间内收集其他节点的视图，因此，即使大多数主节点都需要“同意”，实际上这只是表明我们在不同时间从不同节点收集的信息，我们不确定也不需要在某一时刻，大多数大师都同意了。但是，我们会丢弃过时的故障报告，因此大多数主机会在一段时间内发出故障信号。
尽管每个检测到该FAIL条件的节点都将使用该FAIL消息将该条件强加到群集中的其他节点上，但无法确保该消息将到达所有节点。例如，一个节点可能会检测到该FAIL状况，并且由于分区的原因而无法到达任何其他节点。

但是，Redis群集故障检测具有活动性要求：最终，所有节点都应就给定节点的状态达成共识。有两种情况可能源于大脑分裂。少数节点认为该节点处于FAIL状态，或者少数节点认为该节点未处于FAIL状态。在这两种情况下，集群最终都将具有给定节点状态的单一视图：

情况1：如果大多数主节点将节点标记为FAIL，则由于故障检测及其产生的连锁效应，每个其他节点最终会将主节点标记为FAIL，因为在指定的时间范围内将报告足够的故障。

情况2：当只有少数主节点FAIL将节点标记为时，从属升级将不会发生（因为它使用更正式的算法来确保每个人最终都知道升级），并且每个节点都将根据FAIL状态清除FAIL状态清除以上规则（即，经过N次之后没有晋级NODE_TIMEOUT）。

该FAIL标志仅用作触发以运行从属提升算法的安全部分。从理论上讲，从属可以独立执行操作，并在其主控无法访问时启动从属提升，并在主控实际上可被多数访问的情况下等待主控拒绝提供确认。但是，PFAIL -> FAIL国家的复杂性，协议的薄弱性以及FAIL消息迫使状态在最短时间内在群集的可到达部分传播，具有实际优势。由于这些机制，如果群集处于错误状态，通常所有节点将几乎同时停止接受写入。从使用Redis Cluster的应用程序的角度来看，这是一个理想的功能。还避免了由于本地问题而无法到达其主节点的从节点发起的错误选举尝试（否则其他大多数主节点都可以到达该主节点）。

配置处理，传播和故障转移

集群当前时代

Redis Cluster使用类似于Raft算法“ term”的概念。在Redis Cluster中，该术语改为称为epoch，用于为事件提供增量版本控制。当多个节点提供冲突的信息时，另一个节点就有可能了解哪个状态是最新的。

的currentEpoch是一个64位无符号数。

创建节点时，每个Redis群集节点（从节点和主节点）都将设置currentEpoch为0。

每次从另一个节点接收到一个数据包时，如果发送方的时间（群集总线消息头的一部分）大于本地节点的时间，则将currentEpoch其更新为发送方的时间。

由于这些语义，最终所有节点都将同意configEpoch集群中的最大节点。

当集群的状态更改并且节点寻求协议以执行某些操作时，将使用此信息。

当前，这仅在奴隶晋升期间发生，如下一节所述。基本上，纪元是集群的逻辑时钟，它指示给定的信息以较小的纪元胜出。

配置时代

每个主机始终configEpoch在ping和pong数据包中进行广告宣传，并在位图上宣传其服务的插槽组。

将configEpoch创建一个新的节点时被主人设置为零。

configEpoch在奴隶选举期间会创建一个新的。试图替换发生故障的主节点的从节点会增加其时期，并尝试从大多数主节点获得授权。授权从属服务器后，将configEpoch 创建一个新的唯一标识符，并且该从属服务器将使用new成为主服务器configEpoch。

如以下各节所述configEpoch，当不同的节点要求不同的配置时（这种情况可能由于网络分区和节点故障而发生），有助于解决冲突。

从节点也configEpoch以ping和pong数据包通告该字段，但对于从节点，该字段代表configEpoch其上一次交换数据包时其主节点的字段。这允许其他实例检测从站何时具有需要更新的旧配置（主节点不会将投票授予具有旧配置的从站）。

每当configEpoch某个已知节点发生更改时，所有接收此信息的节点都会将其永久存储在nodes.conf文件中。该currentEpoch值也相同。确保fsync-ed在节点继续其操作之前更新这两个变量并将其保存到磁盘。

configEpoch在故障转移期间使用简单算法生成的值可以保证是新的，增量的和唯一的。

奴隶选举和晋升

从属节点的选举和升级是由从属节点处理的，而主节点则需要对从属节点进行投票。从主机中FAIL至少有一个拥有成为主机的先决条件的从机的角度来看，当主机处于状态时，将发生从机选举。

为了使奴隶提升自己成为主人，它需要开始选举并赢得选举。如果主机处于FAIL状态，则给定主机的所有从机都可以开始选举，但是只有一个从机将赢得选举并将其提升为主机。

满足以下条件时，从属将开始选举：

奴隶的主人处于FAIL状态。
主机服务的插槽数量非零。
从属复制链接与主服务器断开的连接时间不超过给定的时间，以确保升级后的从属服务器的数据相当新鲜。这个时间是用户可配置的。

为了被选举，从属服务器的第一步是增加其currentEpoch计数器，并从主控实例请求投票。

从站通过将FAILOVER_AUTH_REQUEST数据包广播到集群的每个主节点来请求投票。然后，它最多等待NODE_TIMEOUT回复的两倍的时间（但始终至少2秒钟）。

一旦一个主节点投票给了一个给定的从节点FAILOVER_AUTH_ACK，并用a肯定地回答，它就不能再投票选举同一主节点的另一个从节点NODE_TIMEOUT * 2。在此期间，它将无法回复同一主机的其他授权请求。这不是保证安全所必需的，但是对于防止多个从属configEpoch在大约同一时间同时被选举（即使使用不同的）也很有用，这通常是不希望的。

从属方放弃AUTH_ACK一个小于currentEpoch发送投票请求时的时间段的答复。这样可以确保它不计入先前选举的票数。

一旦从机收到大多数主机的ACK，便赢得选举。否则，如果在两次NODE_TIMEOUT（但始终至少为2秒）内未达到多数，则该选举将中止，并在之后NODE_TIMEOUT * 4（且至少应为4秒）再次尝试进行一次新的选举。

奴隶等级

主机一旦处于FAIL状态，从机就会等待一小段时间才能尝试当选。延迟计算如下：

DELAY = 500 milliseconds + random delay between 0 and 500 milliseconds +
        SLAVE_RANK * 1000 milliseconds.

固定的延迟确保我们等待FAIL状态在整个群集中传播，否则从属服务器可能会尝试在主服务器仍不知道该FAIL状态的情况下当选，从而拒绝投票。

随机延迟用于使奴隶不同步，因此他们不太可能同时开始选举。

该SLAVE_RANK从属服务器关于从主服务器处理的复制数据量的等级。当主节点失败时，从节点交换消息以建立（最大努力）等级：复制偏移量最新的从节点的等级为0，第二高的复制偏移量的等级为1，依此类推。这样，最新的奴隶试图在其他人之前当选。

等级顺序没有严格执行；如果更高级别的奴隶未能当选，其他人将尽快尝试。

一旦从属赢得选举，它将获得一个新的唯一性和增量configEpoch，该增量和增量要高于任何其他现有主控器。它开始在ping和pong数据包中以主人身份进行广告宣传，并为所提供的插槽提供一个configEpoch将胜过过去的插槽。

为了加快其他节点的重新配置，将pong数据包广播到群集的所有节点。当前无法访问的节点将在从另一个节点接收到ping或pong数据包时最终进行重新配置，或者UPDATE如果检测到通过心跳数据包发布的信息已过时，则将从另一个节点接收数据包。

其他节点将检测到有一个新的主机服务于旧主机所服务的相同插槽，但具有更大的configEpoch，并将升级其配置。旧的主服务器（如果重新加入集群，则为故障转移的主服务器）的从服务器不仅会升级配置，还将重新配置为从新的主服务器复制。下节将说明如何配置重新加入群集的节点。

主人回复奴隶投票要求

在上一节中，讨论了奴隶如何尝试当选。本节从要求对给定从站投票的主站的角度解释发生了什么。

主人以FAILOVER_AUTH_REQUEST奴隶的请求形式接受选票。

要获得投票，必须满足以下条件：

主机仅对给定的时间段投票一次，并且拒绝为较旧的时间段投票：每个主机都具有lastVoteEpoch字段，并且只要currentEpochauth请求数据包中的lastVoteEpoch不大于，就将拒绝再次投票。当主服务器对投票请求做出肯定答复时，lastVoteEpoch会相应更新，并安全地存储在磁盘上。
仅当从属主机被标记为时，主控才会投票给从属FAIL。
的Auth请求currentEpoch小于主请求currentEpoch。因此，主答复将始终currentEpoch与auth请求相同。如果同一从属设备再次要求进行投票，请增加currentEpoch，以确保新的表决对象不能接受来自主机的旧延迟答复。

未使用规则编号3导致的问题示例：

大师currentEpoch为5，lastVoteEpoch为1（可能在几次失败的选举后发生）

从站currentEpoch为3。
从站尝试以纪元4（3 + 1）进行选举，主服务器以currentEpoch5 表示确定，但答复被延迟。
从属将尝试在某个时间5（4 + 1）再次被选举，延迟的答复将以currentEpoch5 到达从属，并被接受为有效。

NODE_TIMEOUT * 2如果已经为该主机的从属投票，则主机在该主机的从属之前不会投票。这不是严格要求的，因为两个奴隶不可能在同一时期赢得选举。但是，实际上，它可以确保当一个从站被选出时，它有足够的时间通知其他从站，并且避免了另一个从站将赢得新选举的可能性，从而执行了不必要的第二次故障转移。
主人不会以任何方式选择最佳的奴隶。如果从属主机处于当前FAIL状态，并且主机未在当前任期中投票，则将投赞成票。最好的奴隶最有可能在其他奴隶之前赢得选举并赢得选举，因为如前一节所述，由于其较高的排名，通常可以较早地开始投票过程。
当主机拒绝为给定的从机投票时，没有否定响应，该请求将被忽略。
主机不会投票给从机发送configEpoch比configEpoch该主机声称的插槽要少的主机表中的任何一个。请记住，从服务器发送configEpoch其主机的，并发送其主机服务的插槽的位图。这意味着请求投票的从站必须为其要进行故障转移的插槽配置一个新的或等于授予投票的主站的插槽。

分区期间配置时代实用性的实际示例

本节说明了时代概念如何用于使从属升级过程更耐分区。

不再是无限可能的主人。主机具有三个从机A，B，C。
从属A赢得选举并晋升为大师。
网络分区使A不适用于大多数群集。
从站B赢得选举并晋升为大师。
分区使B对大多数群集不可用。
先前的分区是固定的，并且A再次可用。

此时B处于关闭状态，A再次充当主角色（实际上UPDATE消息会立即对其进行重新配置，但是在此我们假设所有UPDATE消息都丢失了）。同时，从站C将尝试当选，以便对B进行故障转移。这是发生的情况：

C会尝试当选并获得成功，因为对于大多数大师而言，它的大师实际上已经倒下了。它将获得一个新的增量configEpoch。
A将无法声称自己是其哈希槽的主节点，因为与A发布的节点相比，其他节点已经具有与较高配置时期（B中的一个）关联的相同哈希槽。
因此，所有节点都将升级其表以将哈希槽分配给C，并且群集将继续其操作。

正如您将在下一节中看到的那样，重新加入集群的陈旧节点通常会尽快获得有关配置更改的通知，因为一旦对其他任何节点执行ping操作，接收方就会检测到它具有陈旧的信息并发送UPDATE信息。

哈希插槽配置传播

Redis群集的重要部分是用于传播有关哪个群集节点正在服务给定的哈希槽集的信息的机制。这对于启动新集群以及在升级从属服务器以为其故障主服务器的插槽提供服务后升级配置的能力都至关重要。

相同的机制允许将节点无限期地分割开来以明智的方式重新加入群集。

散列槽配置的传播方式有两种：

心跳消息。ping或pong数据包的发送者始终会添加有关它（或它的主设备，如果它是从设备）服务的哈希槽集的信息。
UPDATE消息。由于在每个心跳数据包中都有关于发送方configEpoch和服务的哈希槽集的信息，因此，如果心跳数据包的接收方发现发送方信息是过时的，它将发送包含新信息的数据包，从而迫使过时的节点更新其信息。

心跳或UPDATE消息的接收者使用某些简单规则来更新其将哈希槽映射到节点的表。创建新的Redis群集节点时，只需将其本地哈希槽表初始化为NULL条目，这样就不会将每个哈希槽绑定或链接到任何节点。这看起来类似于以下内容：

0 -> NULL
1 -> NULL
2 -> NULL
...
16383 -> NULL

节点为了更新其哈希槽表而遵循的第一条规则如下：

规则1：如果未分配哈希槽（设置为NULL），并且已知节点对其进行声明，那么我将修改哈希表并将其与声明的哈希表相关联。

因此，如果我们收到来自节点A的心跳信号，声称提供配置纪元值为3的哈希槽1和2，则该表将被修改为：

0 -> NULL
1 -> A [3]
2 -> A [3]
...
16383 -> NULL

创建新集群后，系统管理员需要手动（通过CLUSTER ADDSLOTS命令，通过redis-trib命令行工具或通过任何其他方式）将每个主节点服务的插槽仅分配给该节点本身，并且信息将在整个群集中快速传播。

但是，该规则还不够。我们知道哈希槽映射可能在两个事件中发生变化：

在故障转移期间，从服务器将替换其主服务器。
插槽从节点重新分片到另一个节点。

现在，让我们集中讨论故障转移。当从属服务器故障转移其主控服务器时，它获得一个配置时期，该配置时期被保证大于其主控制器之一（并且通常大于先前生成的任何其他配置时期）。例如，作为A的从属的节点B可能会以配置时期4进行故障转移B。它将开始发送心跳数据包（第一次在群集范围内进行大规模广播），并且由于遵循以下第二条规则，接收方将进行更新他们的哈希表：

规则2：如果已经分配了哈希槽，并且已知节点正在使用configEpoch大于configEpoch当前与该槽关联的主节点的哈希值进行广告，则将哈希槽重新绑定到新节点。

因此，在收到来自B的消息后，它们声称将使用配置时期4来服务哈希槽1和2，接收方将以以下方式更新其表：

0 -> NULL
1 -> B [4]
2 -> B [4]
...
16383 -> NULL

活动性：由于第二条规则，群集中的所有节点最终都会同意，插槽的所有者是在configEpoch广告该插槽的节点中拥有最大插槽的所有者。

Redis Cluster中的这种机制称为最后一次故障转移胜利。

在重新分片期间也会发生同样的情况。当导入哈希槽的节点完成导入操作时，其配置时期会增加以确保更改将在整个集群中传播。

UPDATE消息，仔细查看

考虑到上一节的内容，可以更轻松地查看更新消息的工作方式。一段时间后，节点A可能会重新加入群集。它将发送心跳数据包，声称它服务于配置时间为3的哈希槽1和2。所有具有更新信息的接收器将改为看到相同的哈希槽与具有较高配置时间的节点B相关联。因此，他们将UPDATE使用新的插槽配置向A 发送消息。由于上述规则2，A将更新其配置。

节点如何重新加入集群

当节点重新加入集群时，将使用相同的基本机制。继续上面的示例，将通知节点A哈希槽1和2现在由B提供服务。假设这两个是A所服务的唯一哈希槽，则A所服务的哈希槽的数量将降至0！因此，A将重新配置为新主服务器的从服务器。

遵循的实际规则比这要复杂一些。通常，很可能会在很长时间后重新加入A，与此同时，可能会发生由A最初服务的哈希槽由多个节点服务，例如哈希槽1可能由B服务，哈希槽2则由C服务。。

因此，实际的Redis群集节点角色切换规则是：主节点将更改其配置，以复制（作为其从属节点）窃取其最后一个哈希槽的节点。

在重新配置期间，最终服务的哈希槽数将降至零，并且节点将相应地重新配置。请注意，在基本情况下，这仅意味着旧的主服务器将是故障转移后替换它的从服务器的从服务器。但是，一般而言，该规则涵盖所有可能的情况。

从站的操作完全相同：它们重新配置以复制窃取其前主节点的最后一个哈希槽的节点。

副本迁移

Redis Cluster实施了称为副本迁移的概念，以提高系统的可用性。这个想法是，在具有主从设置的群集中，如果单个节点发生多个独立故障，则从属服务器和主服务器之间的映射是固定的，随时间的推移将受到限制。

例如，在每个主节点都有一个从属节点的群集中，只要主节点或从属节点发生故障，群集就可以继续操作，但如果两者都同时发生故障，则群集可以继续操作。但是，有一类故障是由硬件或软件问题引起的单个节点的独立故障，这些故障可能随着时间的推移而累积。例如：

主机A有一个从机A1。
主机A失败。A1晋升为新主人。
三个小时后，A1独立失败（与A失败无关）。由于节点A仍处于关闭状态，因此没有其他从节点可用于升级。群集无法继续正常操作。

如果主服务器和从服务器之间的映射是固定的，则使群集更能抵抗上述情况的唯一方法是向每个主服务器添加从服务器，但这是昂贵的，因为它需要执行更多的Redis实例，更多的内存和等等。

一种替代方法是在群集中创建不对称性，并让群集布局随时间自动更改。例如，群集可能具有三个主服务器A，B，C。A和B每个都有一个从服务器，即A1和B1。但是，主机C是不同的，它有两个从机：C1和C2。

副本迁移是自动重新配置从属服务器以迁移到不再具有覆盖范围的主服务器（没有工作的从属服务器）的过程。通过副本迁移，上述方案将变成以下情形：

主机A失败。A1被提升。
C2迁移为A1的从站，否则将不受任何从站的支持。
三个小时后，A1也失败了。
C2晋升为新的母版，以取代A1。
集群可以继续操作。

副本迁移算法

迁移算法不使用任何形式的协议，因为Redis集群中的从属布局不是集群配置的一部分，需要与配置时代保持一致和/或版本化。取而代之的是，它使用一种算法来避免在不支持主机时从机的大量迁移。该算法保证最终（一旦集群配置稳定），每个主机将至少由一个从机支持。

这就是算法的工作方式。要启动，我们需要定义什么是一个 很好的奴隶在这方面：一个很好的奴隶是一个从没有在FAIL状态从一个给定节点的点。

在每个从站中触发算法的执行，每个从站都会检测到至少有一个主站没有良好的从站。但是，在检测到这种情况的所有从属中，只有一个子集应该起作用。实际上，该子集通常是单个从属设备，除非不同的从属设备在给定时刻对其他节点的故障状态有稍微不同的看法。

在从站中，代理从站是具有最多已连接从站的主站中的从站，该从站处于FAIL状态且节点ID最小。

因此，例如，如果有10个主机，每个主机1个从机，以及2个主机，每个主机5个从机，则将尝试迁移的从机是-在2个具有5个从机的主机中-一个具有最低节点ID的主机。假设未使用任何协议，则当集群配置不稳定时，可能会发生争用情况，其中多个从站认为自己是具有较低节点ID的非故障从站（在实践中不太可能发生这种情况））。如果发生这种情况，结果是多个从站迁移到同一主站，这是无害的。如果比赛以让割让主人没有奴隶的方式发生，

最终，每个主机都将至少由一个从机支持。但是，正常行为是单个从属服务器从具有多个从属服务器的主服务器迁移到孤立的主服务器。

该算法由一个用户可配置的参数控制，该参数为 cluster-migration-barrier：主机可以迁移之前，主机必须保留的良好从机数量。例如，如果将此参数设置为2，则仅当从属主机保留有两个工作的从属主机时，从属主机才能尝试迁移。

configEpoch冲突解决算法

configEpoch在故障转移期间通过从属升级创建新值时，保证它们是唯一的。

但是，在两个不同的事件中，以不安全的方式创建新的configEpoch值，只是增加currentEpoch了本地节点的本地值，并希望同时没有冲突。这两个事件都是由系统管理员触发的：

带有TAKEOVER选项的CLUSTER FAILOVER命令能够手动将一个从属节点提升为一个主节点，而没有大多数主节点可用。例如，这在多数据中心设置中很有用。
出于群集原因，用于集群重新平衡的插槽迁移还会在本地节点内部生成新的配置时期。

具体来说，在手动重新分片期间，将哈希槽从节点A迁移到节点B时，重新分片程序将强制B将其配置升级到集群中最大的纪元加1（除非该节点是已经是配置时代最久的版本），而无需其他节点的同意。通常，现实世界中的重新分片涉及移动数百个哈希槽（尤其是在小型集群中）。对于重新移动的每个哈希槽，要求达成协议以在重新分片期间生成新的配置纪元是无效的。而且，它每次都需要在每个群集节点中进行fsync，以便存储新配置。由于执行方式不同，

但是，由于上述两种情况，有可能（尽管不太可能）以具有相同配置时期的多个节点结束。currentEpoch如果传播速度不够快，则系统管理员执行的重新分片操作以及同时发生的故障转移（加上很多不幸的事情）可能会导致冲突。

此外，软件错误和文件系统损坏也可能导致具有相同配置时期的多个节点。

当服务于不同哈希槽的主机具有相同的时configEpoch，就没有问题。更重要的是，故障转移到主节点的从节点具有唯一的配置时期。

也就是说，手动干预或重新分片可能会以不同方式更改集群配置。Redis Cluster的main liveness属性要求插槽配置始终收敛，因此，在每种情况下，我们实际上都希望所有主节点具有不同的configEpoch。

为了强制执行此操作，如果两个节点最终具有相同的，则使用冲突解决算法configEpoch。

如果一个主节点检测到另一个主节点正在向其发布自身configEpoch。
并且，如果该节点的字典ID比其他要求相同的节点的字典顺序更小configEpoch。
然后将其递增currentEpoch1，并将其用作new configEpoch。

如果有任何一组相同configEpoch的节点，则除了节点ID最大的节点之外的所有节点都将向前移动，从而确保最终，无论发生什么情况，每个节点都将选择唯一的configEpoch。

该机制还保证在创建新集群后，所有节点都以不同的开头configEpoch（即使未实际使用），因为redis-trib确保CONFIG SET-CONFIG-EPOCH在启动时使用。但是，如果由于某种原因而使节点配置错误，它将自动将其配置更新为其他配置时期。

节点重置

可以对节点进行软件重置（无需重新启动节点），以便在不同角色或不同群集中重用。这在常规操作，测试以及云环境中很有用，在该环境中可以重新配置给定节点以加入不同的节点集以扩大或创建新集群。

在Redis Cluster中，使用CLUSTER RESET命令重置节点。该命令有两种变体：

CLUSTER RESET SOFT
CLUSTER RESET HARD

该命令必须直接发送到该节点以进行重置。如果未提供复位类型，则执行软复位。

以下是重置执行的操作的列表：

软复位和硬复位：如果节点是从节点，则将其转变为主节点，并丢弃其数据集。如果该节点是主节点且包含密钥，则重置操作将中止。
软复位和硬复位：释放所有插槽，并重置手动故障转移状态。
软复位和硬复位：删除了节点表中的所有其他节点，因此该节点不再知道任何其他节点。
仅硬重置：currentEpoch，configEpoch和lastVoteEpoch设置为0。
仅硬重置：节点ID更改为新的随机ID。

具有非空数据集的主节点无法重置（因为通常您希望将数据重新分片到其他节点）。但是，在合适的特殊条件下（例如，出于创建新群集的目的而完全破坏了群集的情况），必须在执行重置之前执行FLUSHALL。

从集群中删除节点

通过将所有数据重新分片到其他节点（如果它是主节点）并关闭它，实际上可以从现有集群中删除该节点。但是，其他节点仍将记住其节点ID和地址，并尝试与其连接。

因此，当删除一个节点时，我们还要从所有其他节点表中删除其条目。这是通过使用CLUSTER FORGET <node-id>命令来完成的。

该命令执行两件事：

它从节点表中删除具有指定节点ID的节点。
它设置了60秒的禁止时间，以防止重新添加具有相同节点ID的节点。

第二个操作是必需的，因为Redis Cluster使用八卦来自动发现节点，因此从节点A删除节点X可能导致节点B再次将节点X闲聊到节点A。由于有60秒的禁止，Redis Cluster管理工具有60秒的时间才能从所有节点中删除该节点，从而防止由于自动发现而重新添加该节点。

有关详细信息，请参阅CLUSTER FORGET文档。

发布/订阅

在Redis Cluster中，客户端可以订阅每个节点，也可以发布到其他每个节点。群集将确保已发布的消息根据需要进行转发。

当前的实现将简单地将每个发布的消息广播到所有其他节点，但是在某些时候将使用Bloom过滤器或其他算法对其进行优化。

附录

附录A：ANSI C中的CRC16参考实现

/*
 * Copyright 2001-2010 Georges Menie (www.menie.org)
 * Copyright 2010 Salvatore Sanfilippo (adapted to Redis coding style)
 * All rights reserved.
 * Redistribution and use in source and binary forms, with or without
 * modification, are permitted provided that the following conditions are met:
 *
 *     * Redistributions of source code must retain the above copyright
 *       notice, this list of conditions and the following disclaimer.
 *     * Redistributions in binary form must reproduce the above copyright
 *       notice, this list of conditions and the following disclaimer in the
 *       documentation and/or other materials provided with the distribution.
 *     * Neither the name of the University of California, Berkeley nor the
 *       names of its contributors may be used to endorse or promote products
 *       derived from this software without specific prior written permission.
 *
 * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND ANY
 * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
 * WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
 * DISCLAIMED. IN NO EVENT SHALL THE REGENTS AND CONTRIBUTORS BE LIABLE FOR ANY
 * DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
 * (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
 * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
 * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
 * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
 * SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 */

/* CRC16 implementation according to CCITT standards.
 *
 * Note by @antirez: this is actually the XMODEM CRC 16 algorithm, using the
 * following parameters:
 *
 * Name                       : "XMODEM", also known as "ZMODEM", "CRC-16/ACORN"
 * Width                      : 16 bit
 * Poly                       : 1021 (That is actually x^16 + x^12 + x^5 + 1)
 * Initialization             : 0000
 * Reflect Input byte         : False
 * Reflect Output CRC         : False
 * Xor constant to output CRC : 0000
 * Output for "123456789"     : 31C3
 */

static const uint16_t crc16tab[256]= {
    0x0000,0x1021,0x2042,0x3063,0x4084,0x50a5,0x60c6,0x70e7,
    0x8108,0x9129,0xa14a,0xb16b,0xc18c,0xd1ad,0xe1ce,0xf1ef,
    0x1231,0x0210,0x3273,0x2252,0x52b5,0x4294,0x72f7,0x62d6,
    0x9339,0x8318,0xb37b,0xa35a,0xd3bd,0xc39c,0xf3ff,0xe3de,
    0x2462,0x3443,0x0420,0x1401,0x64e6,0x74c7,0x44a4,0x5485,
    0xa56a,0xb54b,0x8528,0x9509,0xe5ee,0xf5cf,0xc5ac,0xd58d,
    0x3653,0x2672,0x1611,0x0630,0x76d7,0x66f6,0x5695,0x46b4,
    0xb75b,0xa77a,0x9719,0x8738,0xf7df,0xe7fe,0xd79d,0xc7bc,
    0x48c4,0x58e5,0x6886,0x78a7,0x0840,0x1861,0x2802,0x3823,
    0xc9cc,0xd9ed,0xe98e,0xf9af,0x8948,0x9969,0xa90a,0xb92b,
    0x5af5,0x4ad4,0x7ab7,0x6a96,0x1a71,0x0a50,0x3a33,0x2a12,
    0xdbfd,0xcbdc,0xfbbf,0xeb9e,0x9b79,0x8b58,0xbb3b,0xab1a,
    0x6ca6,0x7c87,0x4ce4,0x5cc5,0x2c22,0x3c03,0x0c60,0x1c41,
    0xedae,0xfd8f,0xcdec,0xddcd,0xad2a,0xbd0b,0x8d68,0x9d49,
    0x7e97,0x6eb6,0x5ed5,0x4ef4,0x3e13,0x2e32,0x1e51,0x0e70,
    0xff9f,0xefbe,0xdfdd,0xcffc,0xbf1b,0xaf3a,0x9f59,0x8f78,
    0x9188,0x81a9,0xb1ca,0xa1eb,0xd10c,0xc12d,0xf14e,0xe16f,
    0x1080,0x00a1,0x30c2,0x20e3,0x5004,0x4025,0x7046,0x6067,
    0x83b9,0x9398,0xa3fb,0xb3da,0xc33d,0xd31c,0xe37f,0xf35e,
    0x02b1,0x1290,0x22f3,0x32d2,0x4235,0x5214,0x6277,0x7256,
    0xb5ea,0xa5cb,0x95a8,0x8589,0xf56e,0xe54f,0xd52c,0xc50d,
    0x34e2,0x24c3,0x14a0,0x0481,0x7466,0x6447,0x5424,0x4405,
    0xa7db,0xb7fa,0x8799,0x97b8,0xe75f,0xf77e,0xc71d,0xd73c,
    0x26d3,0x36f2,0x0691,0x16b0,0x6657,0x7676,0x4615,0x5634,
    0xd94c,0xc96d,0xf90e,0xe92f,0x99c8,0x89e9,0xb98a,0xa9ab,
    0x5844,0x4865,0x7806,0x6827,0x18c0,0x08e1,0x3882,0x28a3,
    0xcb7d,0xdb5c,0xeb3f,0xfb1e,0x8bf9,0x9bd8,0xabbb,0xbb9a,
    0x4a75,0x5a54,0x6a37,0x7a16,0x0af1,0x1ad0,0x2ab3,0x3a92,
    0xfd2e,0xed0f,0xdd6c,0xcd4d,0xbdaa,0xad8b,0x9de8,0x8dc9,
    0x7c26,0x6c07,0x5c64,0x4c45,0x3ca2,0x2c83,0x1ce0,0x0cc1,
    0xef1f,0xff3e,0xcf5d,0xdf7c,0xaf9b,0xbfba,0x8fd9,0x9ff8,
    0x6e17,0x7e36,0x4e55,0x5e74,0x2e93,0x3eb2,0x0ed1,0x1ef0
};

uint16_t crc16(const char *buf, int len) {
    int counter;
    uint16_t crc = 0;
    for (counter = 0; counter < len; counter++)
            crc = (crc<<8) ^ crc16tab[((crc>>8) ^ *buf++)&0x00FF];
    return crc;
}

qq讨论群

posted on 2020-04-24 16:30 田坤坤阅读(307) 评论(0) 编辑收藏举报