redis：主从复制

学习自：《Redis开发与运维》PDF 351页

0、简写

m：master，主节点

s：slave，从节点

1、前言

在分布式系统中为了解决单点问题，通常会把数据复制多个副本部署到其他机器，满足故障恢复、负载均衡等需求。

Redis也提供了复制功能，实现了相同数据的多个Redis副本。复制功能是高可用Redis的基础，Redis的哨兵和集群都是在复制的基础上实现高可用的。

2、配置

1）建立复制

参与复制的Redis实例划分为主节点（master）、从节点（slave）。默认情况下都是m。

每个s只能有一个m，而一个m却可以同时具有多个s。

数据复制只能从m到s，即只有m才具有写的能力。

复制的配置方式（3种）：

Redis启动前：conf文件中加入replicaof {masterHost} {masterPort}，Redis启动时生效；
Redis启动时：命令redis-cli后加入选项--replicaof {masterHost} {masterPort}；
Redis启动后：使用命令replicaof {masterHost} {masterPort}

测试

两台机器，IP分别为：

192.168.10.20（主节点）
192.168.10.11

其中要把192.168.10.11变为从节点，就要在它的conf文件中添加一项：

replicaof 192.168.10.20 6397

之后先后启动m和s，此时主从复制就建立成功了。

测试时，在m上进行set操作：

192.168.10.20:6379> set hello 2023-8-30
OK

此时，这个set的值会自动复制到s上：

192.168.10.11:6379> get hello
"2023-8-30"

关于节点的复制状态信息可以通过info replication查看：

192.168.10.20:6379> info replication
# Replication
role:master
connected_slaves:1
slave0:ip=192.168.10.11,port=6379,state=online,offset=506,lag=1
master_failover_state:no-failover
master_replid:12e06f0f4564fbd8c62d1116c3d6ccc04d8ebf77
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:506
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:506

192.168.10.11:6379> info replication
# Replication
role:slave
master_host:192.168.10.20
master_port:6379
master_link_status:up
master_last_io_seconds_ago:9
master_sync_in_progress:0
slave_read_repl_offset:506
slave_repl_offset:506
slave_priority:100
slave_read_only:1
replica_announced:1
connected_slaves:0
master_failover_state:no-failover
master_replid:12e06f0f4564fbd8c62d1116c3d6ccc04d8ebf77
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:506
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:1
repl_backlog_histlen:506

2）断开复制

实现：replicaof no one

流程：

断开与m的复制关系；
s晋升为m；

s断开后不会删除已获得的数据，只是无法再从主节点上获取数据。

也可以切换为另一个m：replicaof newIP newPort

此时s会删除已有的数据后再对新的m进行复制操作。

3）安全性

节点可以通过设置requirepass来设置密码验证，所有登录该节点的连接都要通过-a或者auth进行验证。

如果m节点设置了requirepass，那么s节点还要设置masterauth并与其保持一致，否则无法正确连接。

4）只读

通过配置replica-read-only=yes配置s的只读模式。

该项尽量不要修改，因为主从复制是从m到s，对s的任何修改是无法被m感知到的，从而造成主从不一致的问题。

5）传输延迟

m、s节点一般部署在不同的机器上，复制时的网络延迟就成为了需要考虑的问题。

Redis提供了repl-disable-tcp-nodelay用于控制是否关闭TCP_NODELAY，默认关闭：

关闭，m产生的命令无论大小都会及时发给s，这样主从延迟会变小，但是增加了网络带宽消耗。适用于主从网络环境良好的场景，如同机架、同机房部署。低延迟
开启，m会合并较小的TCP数据包从而节省带宽。默认的发送时间间隔取决于Linux内核，一般默认40ms。这种配置节省了带宽，但是增大了主从间的延迟。适用于网络环境复制或带宽紧张的场景，如跨机房部署。高容灾性

6）拓扑

Redis的复制拓扑结构可以支持单层、多层复制关系，根据拓扑复杂性可以分为以下三种：一主一从、一主多从、树状主从。

①一主一从

使用：写命令并发高

最简单的拓扑结构，当m出问题时，s提供故障转移支持。

当写命令并发高且需要持久化时，可以只在s上开启AOF，这样可以既保证数据安全性又能避免持久化对m的性能干扰。

但是当m关闭持久化功能时，如果m脱机要避免自动重启操作。因为m没有开启持久化，因此自动重启后数据清空，此时s复制m会导致s也被清空，从而丧失了持久化的意义。安全的做法是在s上执行replicaof no one断开与m的复制关系，再重启s从而避免这一问题。

②一主多从（星形拓扑）

适用于：读命令并发高

这种结构下，应用端可以用多个s节点来实现读写分离。

对于读占比较大的情况，可以把读命令发到s来为m分担压力。

常用于一些比较耗时的读命令：keys、sort等，可以在一台s上执行，防止慢查询对m的阻塞从而影响线上服务的稳定性。

对于写并发较高的场景，多个s会导致m节点的写命令多次发送从而造成过度的网络带宽消耗，增加了m的负载，影响了服务稳定性。

③树状主从

树状主从使得s不但可以复制m，也可以作为其他s的m节点继续向下层复制。

通过引入复制中间层，可以有效降低m负载和需要传给s的数据量。

3、原理

1）复制过程

replicaof 127.0.0.1 6379

在s执行replicaof之后，复制过程开始运作，具体流程如下图：

整个复制过程分为6部分：

①保存m信息

执行replicaof之后s值保存了m的地址信息便直接返回，这时复制流程还没开始，在s上执行指令info replication之后可以看到如下信息：

master_host:127.0.0.1
master_port:6379
master_link_status:down

前两项是m的ip和port，master_link_status是m的连接状态，此时是down、下线状态。

执行slaveof之后Redis会打印如下日志：

SLAVE OF 127.0.0.1:6379 enabled (user request from 'id=65 addr=127.0.0.1:58090
fd=5 name= age=11 idle=0 flags=N db=0 sub=0 psub=0 multi=-1 qbuf=0 qbuf-free=
32768 obl=0 oll=0 omem=0 events=r cmd=slaveof')

据此，运维人员就能定位发送slaveof的C端，方便追踪和发现问题。

②主从建立socket连接

s内部通过每秒运行的定时任务维护复制相关的逻辑，当定时任务发现存在新的m时，会尝试与它建立网络连接

s会建立一个Socket套接字，上图中，s就建立了一个端口为24555的Socket，专门用于接收m发送的复制命令。连接成功后打印如下日志：

* Connecting to MASTER 127.0.0.1:6379
* MASTER <-> SLAVE sync started

如果s无法建立连接，定时任务会无限重试直到连接成功或执行replicaof no one取消。

在失败时，可以在s的info replication中查看指标master_link_down_sinc_seconds，它会记录与m连接失败的系统时间。同时日志中也会出现如下内容：

# Error condition on socket for SYNC: {socket_error_reason}

③发送ping命令

连接建立成功后，s发送ping请求首次通信，ping的目的是：

检测m与s间的socket是否可用
检测s当前是否可以接受处理命令

如果发送ping之后，s没收到m的pong回复或者超时，比如网络超时或者m阻塞，此时s会断开复制连接，下次定时任务会发起重连。

当s发送的ping命令成功返回，Redis会打印如下日志，并继续后续的复制流程：

Master replied to PING, replication can continue...

④权限认证

如果m配置了requirepass，那么s必须配置masterauth保证与m有相同的密码才能通过验证。

⑤同步数据集

主从复制连接正常通信后，对于首次建立的连接，m会把所有数据全部发给s，此为耗时最长的步骤。

同步分为：全量同步RDB和增量同步AOF，具体可见redis：AOF与RDB

⑥命令持续复制

当m把当前数据同步给了s之后，就完成了复制的建立流程。之后m会持续的把写命令发送给s，保证主从数据一致性。

2）数据同步

主从同步需要有三个组件支持：

①主从各自的复制偏移量

②m的复制积压缓冲区

③m的运行id

①复制偏移量

参与复制的主从节点都会维护自身的复制偏移量。m在处理完写命令之后，会把命令的字节长度做累加记录，统计信息在info replication中的master_repl_offset指标中。

s节点在收到m的命令后，也会累加记录了自身的偏移量。统计在info replication的slave_repl_offset中。

复制偏移量的具体维护如下图所示：

通过对比主从节点的复制偏移量，可以判断二者是否一致。

可以通过m的统计信息，计算出master_repl_offset - slave_repl_offset的字节数，判断主从节点间复制差异量，如果差异量过大，说明可能发生了网络延迟、命令阻塞。

②复制积压缓冲区

复制积压缓冲区是保存在m上的一个长度固定的队列，默认大小1MB，当m与s相连，并且响应写命令时，除了把该命令发给s，还会将之写入复制积压缓冲区。

缓冲区的本质是先进先出的定长队列，所以可以实现保存最近已复制数据的功能，用于补救部分复制和复制命令丢失的数据。

复制缓冲区的相关信息保存于m的info replication中：

127.0.0.1:6379> info replication
# Replication
role:master
...
repl_backlog_active:1 // 开启复制缓冲区
repl_backlog_size:1048576 // 缓冲区最大长度
repl_backlog_first_byte_offset:7479 // 起始偏移量，计算当前缓冲区可用范围
repl_backlog_histlen:1048576 // 已保存数据的有效长度。

可以计算出复制缓冲区内的偏移量范围：

[repl_backlog_first_byte_offset,repl_backlog_first_byte_offset+repl_backlog_histlen]

③m的运行id

每个节点启动（重启会改变ID）后都会动态分配一个40b的十六进制字符串作为运行ID。运行ID的主要作用是唯一识别Redis节点。一个s节点可以通过保存的m运行ID识别自己当前复制的是哪个m。在用ip+port的方式识别m时，如果m重启变更了整体数据集（RDB/AOF文件），此时s基于偏移量复制将是不安全的，也因此当运行了ID变化之后将做全量复制，当前节点的ID可以在info server中查看：

127.0.0.1:6379> info server
# Server
redis_version:3.0.7
...
run_id:545f7c76183d0798a327591395b030000ee6def9

重启Redis会使节点的运行ID发生变化。

# redis-cli -p 6379 info server | grep run_id
run_id:545f7c76183d0798a327591395b030000ee6def9
# redis-cli -p shutdown
# redis-server redis-6379.conf
# redis-cli -p 6379 info server | grep run_id
run_id:2b2ec5f49f752f35c2b2da4d05775b5b3aaa57ca

如何保证重启时运行ID不会发生变化？

可以用redis-cli debug reload命令重新加载RDB并保证run_id不变，从而避免不必要的全量复制。

但是debug reload会阻塞当前节点主线程，阻塞期间会生成本地RDB快照、清空数据之后再加载RDB文件。对于大数据量m和无法容忍阻塞的场景要谨慎使用。

④psync命令

s使用psync命令完成部分复制、全量复制。

用法：psync {runId} {offset}

选项：

runId：所复制的m的id，默认为空
offset：当前s保存的复制偏移量，如果是第一次参与复制则默认值为-1

运行流程：

1）s发送psync命令给m，根据runId识别m，根据offset判断复制偏移量

2）m根据psync参数与自身情况决定如何响应：

+FULLRESYNC {runId} {offset}，s将触发全量复制；
+CONTINUE，s将触发部分复制；
-ERR，说明无法识别psync命令，可能是版本原因，也可能是psync命令有问题

3）全量复制

全量复制是Redis最早支持的复制方式，也是主从第一次建立复制时必须经历的阶段。

触发全量复制的命令是sync与psync，其中sync只适用于2.8以下的版本，psync适用于2.8及以上的版本：

全量复制的具体流程为：

1）s发送psync命令，由于是第一次复制，所以s没有m的id和复制偏移量，所以真正发送的指令是psync -1；

2）m根据psync -1判断出是全量复制，回复+FULLRESYNC；

3）s收到m的响应，记录下run_id与offset，此时还会打印日志：

Partial resynchronization not possible (no cached master)
Full resync from master: 92d1cb14ff7ba97816216f7beb839efe036775b2:216789

4）m执行bgsave，保存RDB到本地，关于bgsave见redis：AOF与RDB中的bgsave一节。

此时m上出现与bgsave相关的日志：

M * Full resync requested by slave 127.0.0.1:6380
M * Starting BGSAVE for SYNC with target: disk
C * Background saving started by pid 32618
C * RDB: 0 MB of memory used by copy-on-write
M * Background saving terminated with success

Redis 3.0之后，输出的日志开头会有M、S、C标识：

M：该行为m节点日志
S：该行为s节点日志
C：子进程日志

5）m发送RDB文件给s，s将之保存在本地并直接作为s的数据文件，当RDB接收完毕后，s会打印如下日志，其中记录了m发送的数据量：

16:24:03.057 * MASTER <-> SLAVE sync: receiving 24777842 bytes from master

对于数据量较大的m，比如RDB>6GB，此时传输文件会非常耗时。可以通过细致分析Full resync和MASTER↔SLAVE这两行日志的时间来计算出RDB从创建到传输完毕的消耗时间。如果总时间超过了repl-timeout，那么s将放弃接收RDB文件并清理已经下载的临时文件，导致全量复制失败，此时s会打印如下日志：

M 27 May 12:10:31.169 # Timeout receiving bulk data from MASTER... If the problem
persists try to set the 'repl-timeout' parameter in redis.conf to a larger value

针对数据量较大的节点，可以调高repl-timeout（默认是60）防止出现全量同步超时。

默认值为60，是6GB文件在千兆网卡理论带宽（100MB/s）下传输完毕的时间。

无盘复制

为了降低m的磁盘开销，Redis支持无盘复制——m上生成的RDB不保存在本地，而是直接通过网络发送到s。

通过配置repl-diskless-sync控制，默认关闭。

适用于m所在的机器磁盘性能较差但是网络带宽充裕的场景。

6）在s开始接收RDB快照到接收完毕，m仍响应读写命令，此时m会把这期间的写命令数据保存在m的输出缓冲区（见客户端输出缓冲区）内，当s加载完RDB文件，m再把这期间的新生成的写数据发给s，保证主从数据一致。

如果创建和传输RDB的时间过长，对于高流量写入场景很容易造成m的客户端输出缓冲区溢出。这与配置client-output-buffer-limit有关（如何配置见redis配置文件：redis.conf），

默认：client-output-buffer-limit slave 256MB 64MB 60

含义：60s内buffer的使用量超过了64MB或者瞬时使用量超过了256MB，m将取消主从复制，造成全量同步/主从复制失败。

7）s收到m传送来的全部数据后会清空自身旧数据，对应如下日志：

16:24:02.234 * MASTER <-> SLAVE sync: Flushing old data

8）s清空数据后加载RDB文件，对于较大的RDB文件，这一步依然比较耗时，可以通过计算日志之间的时间差来判断加载RDB的总耗时，有两条日志与此相关：

16:24:03.578 * MASTER <-> SLAVE sync: Loading DB in memory
16:24:06.756 * MASTER <-> SLAVE sync: Finished with success

对于线上读写分离的场景，s也负责响应读命令。如果此时s正处于全量复制或复制中断阶段，那么s在响应读命令时可能拿到错误的数据。

与此相关的配置项有replica-serve-stale-data，默认开启，此时s会响应所有命令。对于无法容忍不一致的场景可以设置为no，此时s除了info和replicaof命令之外的所有命令都只返回"SYNC with master in progress"（也就是说此时没法读了，这个s只是作为m的备份存在）。

9）s成功加载完RDB之后，如果m开启了AOF持久化功能，它会立刻做bgrewriteaof操作，以保证全量复制之后AOF持久化文件立刻可用。关于AOF持久化见：redis：AOF与RDB。

通过分析全量复制的全部流程，可以发现全量复制是一个非常耗时耗力的操作，它的时间开销主要包括：

m节点bgsave时间；
RDB文件网络传输时间；
s节点清空数据时间；
s节点加载RDB的时间；
可能的AOF重写时间。

例如线上数据量为6G左右的m节点，s进行全量复制的总耗时在2min左右。这期间会大量消耗ms节点的CPU、内存、网络资源，所以除了第一次复制采用全量复制在所难免之外，对于其他场景应该规避全量复制的发生，

基于这个问题，Redis实现了部分复制的功能。

4）部分复制（增量复制）

指令：psync {runId} {offset}

当s正在复制m时，如果出现网络闪断、命令丢失等异常情况，s会向m要求补发丢失的命令数据，如果m的复制缓冲区（backlog-buffer）中存在这部分数据就直接发送给s，这样可以保持主从复制的一致性。补发的这部分数据一般远远小于全量数据，因此开销很少。

具体流程如下图：

流程说明：

1）当主从出现网络中断Connection lost，超过了repl-timeout，m会认为s故障并且中断复制连接，打印如下日志：

M # Disconnecting timedout slave: 127.0.0.1:6380
M # Connection with slave 127.0.0.1:6380 lost.

如果此时s没有宕机，也会同步打印日志表明与m丢失连接：

S # Connection with master lost.
S * Caching the disconnected master state.

2）ms连接中断期间，m仍会响应命令，但是无法把这些命令发给s，不过m内部存在backlog仍能保存最近一段时间的写命令，默认最大缓存1MB

3）当m网络恢复后，s会再次连上m，打印如下日志：

S * Connecting to MASTER 127.0.0.1:6379
S * MASTER <-> SLAVE sync started
S * Non blocking connect for SYNC fired the event.
S * Master replied to PING, replication can continue...

4）当ms连接恢复后，由于s之前保存了自身已复制的offset和m的runId。因此会把他们作为psync参数发给m，要求进行部分复制操作。该行为对应的s日志为：

S * Trying a partial resynchronization (request 2b2ec5f49f752f35c2b2da4d05775b5
b3aaa57ca:49768480).

5）m接到psync命令后先核对runId是否与自身一致，一致则说明之前复制的就是本节点；

之后根据offset在backlog中查找，如果offset之后的数据在backlog中，就对s发送+Continue响应，表示可以进行部分复制。s接到回复后打印如下日志：

S * Successful partial resynchronization with master.
S * MASTER <-> SLAVE sync: Master accepted a Partial Resynchronization.

6）m根据offset把backlog中的数据发给s，表示主从复制恢复正常。

可以从日志中查到发送的数据量：

M * Slave 127.0.0.1:6380 asks for synchronization
M * Partial resynchronization request from 127.0.0.1:6380 accepted. Sending 
78 bytes of backlog starting from offset 49769216.

该条日志表明这次部分复制只同步了78B，远小于全量复制。

5）心跳（ping）

主从复制建立后，m和s之间维护着长连接并彼此发送心跳命令：

心跳判断机制：

1）m和s彼此都有心跳检测机制，各自模拟成对方的C端进行通信，可以通过client list查看相关信息，m的flags=M，s的flags=S；

2）m默认每隔10s对s发送ping，判断s的存活性和连接情况。可通过参数repl-ping-replica-period控制发送频率；

3）s在其主线程中，每隔1s发送replconf ack {offset}命令，给m上报自身当前的offset。replconf命令主要作用为：

实时检测m和s的网络状态；
上报自身offset，检查复制数据是否丢失，如果丢失，还要再从m的backlog中拉取丢失数据；
实现保证s的数量和延迟性功能，通过min-slaves-to-write、min-slaves-max-lag配置

m根据replconf判断s的超时时间，正常延迟应该在0~1之间，如果超过repl-timeout（默认60s），则判定s下线并断开连接。

在m判断s下线之后，如果s重新恢复，那么心跳检测会继续进行。

为了降低主从延迟，通常把Redis主从节点部署在相同机房/同城机房，避免网络延迟、分区引起的心跳中断情况。

6）异步复制

m不仅负责数据读写，还负责把写命令同步给s。

写命令的发送过程是异步完成，也就是说m自身处理完写命令之后直接返回给C端，不等待s复制完成：

主节点的复制流程：

①m节点6379接收处理命令；

②命令处理完后返回响应结果；

③对于新的修改命令异步发给6380s节点，s节点在主线程中执行复制命令。

由于主从复制过程是异步的，就会造成s的数据对m存在延迟。具体延迟多少B、多少s，可以在主节点的info replication中查看：

slave0:ip=127.0.0.1,port=6380,state=online,offset=841,lag=1
master_repl_offset:841

ip、port、state：ip、端口、状态；
offset：当前s的复制偏移量；
lag：主从节点延迟，1s；
master_repl_offset：当前m的复制偏移量。

Redis的复制速度由配置项repl-disable-tcp-nodelay决定。

4、开发与运维中的问题

读写分离、故障转移（failover）、实时备份

1）读写分离

对于Read占比较高的场景，可以把一部分Read流量分摊到s来减轻m压力。

当用s响应Read时，业务端可能遇到的问题：

复制数据延迟
读过期数据
s节点故障

①数据延迟

由于主从复制是异步进行的，所以复制数据的延迟无可避免，延迟取决于网络带宽、命令阻塞情况。

比如刚在m中写入数据后，立刻在s上读可能读不到。

这需要业务场景允许短时间的数据延迟。对于无法容忍大量延迟的场景，可以编写外部监控程序监听m和s的复制偏移量，当延迟较大时通知C端避免读取高延迟s节点，实现逻辑如下：

过程：

1）监控程序（monitor）定期检查主从偏移量，它们的差值就是主从节点延迟的字节量；

m偏移量：info replication的master repl offset
s偏移量：slave0字段的offset指标

2）当延迟字节量过高时，比如超过10MB。监控报警并通知C端s高延迟，可以用Zookeeper的监听回调机制实现通知C端；

3）C端接收到s高延迟通知后，修改Read命令路由到其他s或m上。当延迟恢复后，再次通知C端，恢复s的Read请求。

这种方案成本较高，需要单独修改适配Redis的客户端类库。C端还要识别出读写请求并自动路由，还要维护故障和恢复的通知。该方案可以用集群方案做水平扩展。

②读到过期数据

当m存储大量超时数据时，如缓存数据，Redis内部需要维护过期数据删除策略，两种策略——惰性删除、定时删除。

惰性删除

m每次处理Read命令，都会检查Key是否超时，如果超时就del该Key并将该del命令异步发送给s。

为了保证复制一致性，s自身永远不会主动删除超时数据。

定时删除

Redis的m内部定时任务会循环采样一定数量的Key，当发现采样的Key过期时执行del命令，再同步给s：

如果此时数据大量超时，m的采样速度更不上过期速度且m没有读取过期Key的操作，那么s将无法收到del命令。这时s将读取到过时的数据。Redis在3.2版本解决了该问题，s读取数据前会检查Key的过期时间来决定是否返回数据。

③从节点故障

对于s的故障问题，需要在C端维护可用s列表，当s故障时立刻切换到其他s或m节点。这个过程类似之前针对延迟过高的监控处理，需要改造C端类库。

综上，Redis读写分离的实现需要一定成本，现在大多数用Redis Cluster（集群模式）来解决，这样不止扩展了读性能，还扩展了写性能和可支撑数据规模，并且可以保障一致性和故障转移。对于C端的维护也相对容易。

2）规避全量复制

①第一次建立复制

在首次建立复制时，s中不包括m中的数据，必须进行全量复制才能完成数据同步。这种情况无可避免，当对数据和流量双高的m添加s时，建议在低峰期操作、尽量避免使用大数据量节点。

②节点runId不匹配

当主从复制关系建立后，s会保存m的runId，如果此时m故障重启，那它的runId会变化。此时s会发现ID不匹配，并认为自己复制的是一个全新节点而进行全量复制。

对于这种情况，要从架构上规避，例如提供故障转移功能。当m故障后，手动提升s为m或采用自动故障转移的哨兵或集群方案。

③复制积压缓冲区backlog不足（复制积压缓冲区）

当主从网络中断后，s再次连上m时会发送psync {runId} {offset}请求部分复制，如果请求的offset不在m的backlog中，就无法给s提供数据。此时部分复制退化为全量复制。

针对这种情况要根据网络中断时长（net_break_time）、写命令数据量（write_size_per_minute）分析出合理的积压缓冲区大小。网络中断时长一般在分钟级，写命令数据量可以统计高峰期节点info replication每秒的master_repl_offset差值。

积压缓冲区默认大小为1MB，对于大流量场景显然不够，这时需要增大积压缓冲区，保证

repl_backlog_size > net_break_time × write_size_per_minute，从而避免因backlog不足引发的全量复制。

3）规避复制风暴

复制风暴：大量s短期内对同一个m或同一台机器的多个m发起全量复制。

复制风暴会对复制的m或机器造成大量内存、CPU、带宽消耗。

规避方式

①单主节点复制风暴

一般发生于一个m挂载多个s的场景。

当m重启后，s会发起全量复制，此时m会为s创建RDB快照，如果在快照创建完毕之前，有多个s都尝试与m发起全量同步，那么其他节点将共享这份RDB快照。虽然不用创建多个快照，但是同时向多个s发送RDB快照，可能会使m的网络带宽消耗严重，造成m的延迟变大，极端情况下会导致主从连接断开，导致复制失败。

解决方案

减少m挂载的s数量
采用树状复制结构，加入中间s节点来保护m

s采用树状结构很有帮助，把网络开销交给中间层的s，不用消耗顶层的m。

但这种方式会增加运维复杂性，增加了手动自动故障转移的难度。

②单机器复制风暴

由于Redis的单线程架构，通常单台机器会部署多个Redis实例。

如果某台机器部署了多个m，当它出现故障或网络中断，在重启恢复后，会有大量s针对它的m进行全量复制，造成该机器网络带宽耗尽。

解决方案

将m分散到多台机器，避免在一台机器上部署过多的m；
当m所在机器故障后，提供故障转移机制，避免机器恢复后进行密集的全量复制。

5、小结

1）Redis通过主从复制功能实现m的多个副本，s可以通过replicaof建立、断开复制；

2）复制支持树状结构，一个s可以复制另一个s，实现层层向下的复制流；

3）复制分为全量复制、部分复制。全量复制需要同步全部m的数据集，消耗大量资源；部分复制可以有效减少因网络异常等原因造成的不必要的全量复制。通过配置复制积压缓冲区（复制积压缓冲区）尽量避免全量复制；

4）m和s之间维护了心跳、offset检测机制，保证了m、s通信正常和数据一致性；

5）Redis为保证高性能复制，整个复制过程是异步的，写命令处理完后直接返回C端，不等待s复制完成。因此s存在延迟情况；

6）当使用s用于读写分离时会存在数据延迟、过期数据、从节点可用性问题，需要根据业务情况提前做出规避；

7）在运维过程中，一个m存在多个s或一台机器部署大量m的情况下，存在复制风暴的风险。

6、回顾

简写：

m：master，主节点

s：slave，从节点

1）主从复制的目的：出于故障恢复、负载均衡等目的，把数据复制多份部署到其他机器上。

2）主从复制是高可用Redis的基础，也是哨兵、集群的基础。

3）如何启动和关闭某两台节点间的主从关联——replicaof

启动：
- 动态配置：redis启动后，replicaof {masterHost} {masterPort}
- 静态配置：redis启动前，修改配置项replicaof {masterHost} {masterPort}
关闭：replicaof no one

4）如果没有配置主从选项，那么每台节点默认都是m，只是它没有属于自己的s

5）info replication：节点的主从复制信息

6）与主从复制相关的配置项：

replicaof：主从关系的建立、关闭、切换
requirepass：密码验证
masterauth：当m设置了requirepass，那s需要设置masterauth以进行密码验证，二者相同
replica-read-only：设置s是否只读；正常情况下应该保证只有m可以写
repl-disable-tcp-nodelay：是否开启无延迟模式；开启后，所有m的命令都会及时发给s

7）Redis的拓扑结构：

一主一从，最简单，s为m提供故障转移
一主多从（星形）：适用于读并发高的情况
树状主从：引入中间层，作为其他下层的m，有效降低顶层m的负载和需要传给s的数据量。

8）主从复制过程

在127.0.0.1:6380 上添加主从复制配置replicaof 127.0.0.1 6379

此时 6380 成为s机，6379 成为m机，接着开启主从复制，整个过程分为6部分：

①保存m的信息

此时s只会保留m的地址信息，之后返回，此时复制还没开始，但可以通过inforeplication看到m的ip和端口。此时在日志中可以看到slaveof 127.0.0.1:6379 enabled，以及其他一些s机信息，据此可以定位谁发送了replicaof命令。

②m与s建立socket连接

s会维护一个每秒运行的定时任务来维护复制相关的逻辑，当发现存在新的m时，会尝试与其建立网络连接；

s会建立一个socket专门用于与m通信(用于建立复制的通信，复制时也会走这个socket)，连接成功后会产生日志Connectionto Master ip:port；

当s连接不上m时，定时任务会无限重连，直到连接上或者replicaof no one。

③s发送ping

连接建立成功后，s 发送ping给m，目的是

检查m与s间的 socket 是否可用:
检查s当前是否可以处理命令

s发送 ping 之后，会有两种结果：

m 回复 pong：继续后续的复制流程；
m 无回复、超时：s断开复制连接，并在下一次定时任务时重连；

s 收到 pong 时Redis 打印日志:Master replied to Ping

④权限认证

如果 m 配置了 requirepass，那么s还要配置 masterauth 项

⑤同步数据集

主从复制正常通信后，对于首次连接，m 会把所有命令全部发给 s，该步耗时最长:这一过程是 RDB 操作

⑥命令继续复制

首次连接并完成 RDB 之后，s 中已经有了 m 中大部分的数据了，之后每当m中有新加入的写命令，就会把这些命令以AOF的方式发给 s，保证二者的主从一致性。

8）数据同步

主从复制有几个关键的组件：

m、s各自的 offset
m 的复制积压缓冲区(backlog)
m的runld
psync 命令

①offset

参与复制的m、s都有各自的 offset：

每当m 处理完写命令，会把该命令的字节长对当前 offset 做累加，保存到info replication master repl offset；

s收到m的命令后，也会对自身的 offset 做累加，保存到 info replication 的slave-repl-offset；

通过对比这两个 offset，可以判断二者是否一致，如果差异过大，说明可能发生了网络延迟、命令阻塞。

②复制积压缓冲区backlog

backlog是m 上一个长度固定的队列，默认大小1MB，当m 有新的写命令时，除了把该命令发给s，还会写入 backlog 中:

backlog 可以保存最近已复制的数据，因此可以用于补救部分数据、复制丢失的数据。

backlog 的相关信息可以在m的info replication 的 backlog 相关项查询:

repl backlog active://是否开启backlog
backlogrepl backlog size:1048576 // backlog 的最大长度
repl backlog first byte ofset:7479 //起始 offset
repl backlog histlen:1048576// 已保存数据长度

③m的runld

每个节点启动后都有一个动态分配的runId，它是一个40b的16进制字符串。可以通过runld识别Redis节点，s也是通过m的runId识别自己当前复制的是哪个m，重启会导致runld改变，因此重启m会导致s发生全量复制。

如何保证rund不变?

redis-cli debug reload重新加载RDB并保证runid不变。但是debug reload会阻塞主线程，阻塞期间会生成本地RDB快照、恢复后重新加载RDB文件，对于大数据量的m以及无法容忍阻塞的场景不友好。

④psync命令：psync runId offset

s用psync命令完成部分复制、全量复制；

在首次复制时，runId为空，offset为-1，即psync-1，此时触发全量复制；

其他时候（m与s已经建立的连接，并且经历了全量复制)，触发增量复制；

m对于psync的命令有三种响应情况:

-FULLRESYNC:s触发全量复制，

+CONTINUE:s触发增量复制

-ERR:无法识别psyc

9)全量复制

全量复制是Redis最早支持的复制方式，也是主从第一次建立连接后必须经历的复制:，

2)全量复制的触发命今:sync(2.8版本前)与psync(2.8版本及以后):

(3)具体流程:

下文10)-17)将详细介绍

posted @ 2023-08-31 16:07 ShineLe 阅读(461) 评论(0) 收藏举报

刷新页面返回顶部

ShineLee

redis：主从复制

0、简写

m：master，主节点

s：slave，从节点

1、前言

2、配置

1）建立复制

测试

2）断开复制

实现：replicaof no one

流程：

3）安全性

4）只读

5）传输延迟

6）拓扑

①一主一从

使用：写命令并发高

②一主多从（星形拓扑）

适用于：读命令并发高

③树状主从

3、原理

1）复制过程

①保存m信息

②主从建立socket连接

③发送ping命令

④权限认证

⑤同步数据集

⑥命令持续复制

2）数据同步

①主从各自的复制偏移量

②m的复制积压缓冲区

③m的运行id

①复制偏移量

②复制积压缓冲区

③m的运行id

④psync命令

用法：psync {runId} {offset}

选项：

运行流程：

3）全量复制

无盘复制

默认：client-output-buffer-limit slave 256MB 64MB 60

4）部分复制（增量复制）

指令：psync {runId} {offset}

5）心跳（ping）

心跳判断机制：

6）异步复制

主节点的复制流程：

4、开发与运维中的问题

1）读写分离

①数据延迟

过程：

②读到过期数据

惰性删除

定时删除

③从节点故障

2）规避全量复制

①第一次建立复制

②节点runId不匹配

③复制积压缓冲区backlog不足（复制积压缓冲区）

3）规避复制风暴

规避方式

①单主节点复制风暴

解决方案

②单机器复制风暴

解决方案

5、小结

6、回顾

简写：

m：master，主节点

s：slave，从节点

3）如何启动和关闭某两台节点间的主从关联——replicaof

公告