redis主从复制机制
单机redis理想状态可以承受将近每秒10万的读操作,实际情况还会少一些,那么如果想支持更高的访问量就需要通过redis的主从架构来实现读写分离。
redis天然支持集群cluster,一主多从,一个master node可以有多个slave node,横向扩展非常方便。
master的数据持久化可以保障数据安全
采用主从架构必须开启master的数据持久化,不建议将slave当做master的热备份。虽然redis的哨兵模式sentinal检测到master failure会进行选举推选出新的mater,但是不排除原mater自动重启丢失数据后将整个集群的数据全部同步为空。
redis replication
核心机制:
- master采用异步复制的方式将数据同步给slave,从2.8版本后出现了slave周期拉取需要复制的数据量。
- slave node也可以连接slave node
- slave node做复制的时候不会阻塞master node
- slave node做复制是也不会停止本机的读造作,会用旧数据提供服务
- 添加slave node做读写分离,提高读操作的吞吐量
工作原理:
当启动一个slave node,会发送PSYNC命令给master。
若slave第一次连接master,则触发full resynchronization。master异步生成rdb文件,前台同时正常提供服务并将写操作缓存,rdb生成好了发送给slave,slave现将文件写入其所在的磁盘然后加载到内存中,master再把期间缓存的写命令同步给slave,完成同步。
如果不是第一次连接,master仅将slave缺少的数据复制过去。
出现了网络故障,slave node自动重新连接master,master只启动一个rdb save操作,等待5秒后如果有更多slave node重连,就只需要将刚刚备份好的rdb发送就可以。
断点续传:
redis2.8后支持断点续传,主从复制过程中出现故障后重连可以从上次的断点继续复制。master在内存中创建了一个backlog,双方都保存一个replica offset和master id,offset也保存在backlog中。
无磁盘化复制:
master在内存中直接创建rdb,然后发送给slave,不会在自己本地落地磁盘了
repl-diskless-sync
repl-diskless-sync-delay,等待一定时长再开始复制,因为要等更多slave重新连接过来
过期key处理:
slave不会自己过期key,等master的key过期或者LRU内存淘汰了一些key,会模拟del命令给slave。
主从复制完整流程
- slave启动,从redis.conf中读取到master的ip和port。
- slave中有定时任务,每秒检查是否有新的master需要连接,如果有则建立socket连接。
- slave发送ping命令给master。
- 口令认证,如果master设置了requirepass,那么salve必须发送masterauth进行认证。
- master第一次进行全量复制,后续持续将写命令异步发送给slave。
全量数据同步相关核心机制
- offset:master和slave都会维护一个offset,不断累加。slave每秒将自己的offset上报给master保存。通过这种方式知道互相之间数据不一致的情况。
- backlog:master的backlog默认1MB大小,在做全量复制时会假数据同时记录到backlog中,用来复制中断后的断点续传。
- master run id:使用info server命令即可观察到,如果master发生了变化,集群的master run id就会变化,slave检测到其变化就会做全量复制。如果需要不更改run id重启redis,可以使用redis-cli debug reload命令。
- psync:slave发送该psync runid offset给master进行复制,master检查后响应,根据runid和offset判断触发full resynchronization或者continue触发增量复制。
全量复制
- master执行bgsave,在本地生成一份rdb快照文件。
- 将rdb发送给slave,如果时间超过60秒(repl-timeout),那么认为复制失败,可以适当调大该参数。千兆网卡一般每秒100M,6G多文件就可能超过60S。
- 在rdb生成和复制过程中master会将新的写命令缓存在内存,slave保存了rdb文件后再将新的写命令发送。
- client-output-buffer-limit slave 256MB 64MB 60 此配置规定了在复制期间,如果大小超过256M,或者缓存大于64MB,或者时间超过60S,就停止复制,复制失败。
- slave node接收到rdb之后,清空自己的旧数据,然后重新加载rdb到自己的内存中,同时基于旧的数据版本对外提供服务。
- 如果slave开启AOF,会立即执行bgrewriteraof,重写AOF。rdb生成、rdb通过网络拷贝、slave旧数据的清理、slave aof rewrite,很耗费时间,如果复制的数据量在4G~6G之间,那么很可能全量复制时间消耗到1分半到2分钟。
增量复制
- 如果全量复制过程中网络断开,那么slave重新连接master时会触发增量复制。
- master直接从自己的backlog中获取部分丢失的数据发送。
- master根据slave发送的psync中的offset从backlog中获取数据。
heartbeat
主从节点互相发送心跳。master默认10秒发送一次,slave1S发送一次。
异步复制
master接收到写命令后,先在内部写入,再异步发送给slave。