主从复制
企业高可用性标准
全年无故障率(非计划内故障停机)
-
99.9% ----> 0.001*365*24*60=525.6 min
-
99.99% ----> 0.0001*365*24*60=52.56 min
-
99.999% ----> 0.0001*365*24*60=5.256 min
高可用架构方案
负载均衡:有一定的高可用性 LVS Nginx 主备系统:有高可用性,但是需要切换,是单活的架构 KA , MHA, MMM 真正高可用(多活系统): NDB Cluster Oracle RAC Sysbase cluster , InnoDB Cluster(MGR),PXC , MGC
MySQL Replication(主从复制)
主从复制介绍
-
(1) 主从复制基于binlog来实现的
-
(2) 主库发生新的操作,都会记录binlog
-
(3) 从库取得主库的binlog进行回放
-
(4) 主从复制的过程是异步
主从复制的前提
-
(1) 2个或以上的数据库实例
-
(2) 主库需要开启二进制日志
-
(3) server_id要不同,区分不同的节点
-
(4) 主库需要建立专用的复制用户 (replication slave)
-
(5) 从库应该通过备份主库,恢复的方法进行"补课"
-
(6) 人为告诉从库一些复制信息(ip port user pass,二进制日志起点)
-
(7) 从库应该开启专门的复制线程
主从复制搭建过程
准备多实例
pkill mysqld systemctl start mysqld3307 \rm -rf /data/3308/data/* \rm -rf /data/3308/mysql-bin.* mysqld --initialize-insecure --user=mysql --basedir=/application/mysql --datadir=/data/3308/data systemctl start mysqld3308 mysql -S /data/3308/mysql.sock -e "select @@port" mysql -S /data/3307/mysql.sock -e "select @@port";
检查配置文件
-
主库: 二进制日志是否开启
-
两个节点: server_id
[root@db01 data]# cat /data/3308/my.cnf [mysqld] basedir=/application/mysql datadir=/data/3308/data socket=/data/3308/mysql.sock log_error=/data/3308/mysql.log port=3308 server_id=8 log_bin=/data/3308/mysql-bin [root@db01 data]# cat /data/3307/my.cnf [mysqld] basedir=/application/mysql datadir=/data/3307/data socket=/data/3307/mysql.sock log_error=/data/3307/mysql.log port=3307 server_id=7 log_bin=/data/3307/mysql-bin [root@db01 data]#
主库(3307)创建复制用户
mysql -S /data/3307/mysql.sock -e "grant replication slave on *.* to repl@'10.0.0.%' identified by '123'"
主库的数据备份到从库
主库备份数据
mysqldump -S /data/3307/mysql.sock -A --master-data=2 --single-transaction -R -E --triggers >/tmp/full.sql
从库导入主库的数据
[root@db01 ~]# mysql -S /data/3308/mysql.sock mysql> set sql_log_bin=0; mysql> source /tmp/full.sql
告知从库关键复制信息
[root@db01 ~]# mysql -S /data/3308/mysql.sock # 查看帮助信息 help change master to 修改后执行以下语句 CHANGE MASTER TO MASTER_HOST='10.0.0.200', MASTER_USER='repl', MASTER_PASSWORD='123', MASTER_PORT=3307, MASTER_LOG_FILE='mysql-bin.000006', MASTER_LOG_POS=1305, MASTER_CONNECT_RETRY=10;
从库开启复制线程(IO,SQL)
[root@db01 ~]# mysql -S /data/3308/mysql.sock mysql> start slave;
检查主从复制状态
[root@db01 ~]# mysql -S /data/3308/mysql.sock mysql> show slave status \G
主库创建新数据库alexsb
mysql -S /data/3307/mysql.sock -e "create database alexsb"
从库查看是否存在alexsb数据库
mysql -S /data/3308/mysql.sock -e "show databases"
主从复制原理
主从复制过程:
-
1.从库执行change master to 命令(主库的连接信息+复制的起点)
-
2.从库会将以上信息,记录到master.info文件
-
3.从库执行 start slave 命令,立即开启IO_T和SQL_T
-
4. 从库 IO_T,读取master.info文件中的信息
-
获取到IP,PORT,User,Pass,binlog的位置信息
-
5. 从库IO_T请求连接主库,主库专门提供一个DUMP_T,负责和IO_T交互
-
6. IO_T根据binlog的位置信息(mysql-bin.000004 , 444),请求主库新的binlog
-
7. 主库通过DUMP_T将最新的binlog,通过网络TP给从库的IO_T
-
8. IO_T接收到新的binlog日志,存储到TCP/IP缓存,立即返回ACK给主库,并更新master.info
-
9.IO_T将TCP/IP缓存中数据,转储到磁盘relaylog中.
-
10. SQL_T读取relay.info中的信息,获取到上次已经应用过的relaylog的位置信息
-
11. SQL_T会按照上次的位置点回放最新的relaylog,再次更新relay.info信息
-
12. 从库会自动purge应用过relay进行定期清理
补充说明:
- 一旦主从复制构建成功,主库当中发生了新的变化,都会通过dump_T发送信号给IO_T,增强了主从复制的实时性.
主从复制监控
命令(从库中运行)
mysql> show slave status \G
输出内容以下
主库有关的信息(master.info): Master_Host: 10.0.0.51 Master_User: repl Master_Port: 3307 Connect_Retry: 10 ******************************* Master_Log_File: mysql-bin.000004 Read_Master_Log_Pos: 609 ******************************* 从库relay应用信息有关的(relay.info): Relay_Log_File: db01-relay-bin.000002 Relay_Log_Pos: 320 Relay_Master_Log_File: mysql-bin.000004 从库线程运行状态(排错) Slave_IO_Running: Yes Slave_SQL_Running: Yes Last_IO_Errno: 0 Last_IO_Error: Last_SQL_Errno: 0 Last_SQL_Error: 过滤复制有关的信息: Replicate_Do_DB: Replicate_Ignore_DB: Replicate_Do_Table: Replicate_Ignore_Table: Replicate_Wild_Do_Table: Replicate_Wild_Ignore_Table: 从库延时主库的时间(秒): Seconds_Behind_Master: 0 延时从库: SQL_Delay: 0 SQL_Remaining_Delay: NULL GTID复制有关的状态信息 Retrieved_Gtid_Set: Executed_Gtid_Set: Auto_Position: 0
主从复制故障分析
IO 线程故障
(1)连接不上主库
- 网络,连接信息错误或变更了,防火墙,连接数上线
排查思路
1. 使用复制用户手工登录 [root@db01 data]# mysql -urepl -p12321321 -h 10.0.0.51 -P 3307 mysql: [Warning] Using a password on the command line interface can be insecure. ERROR 1045 (28000): Access denied for user 'repl'@'db01' (using password: YES) [root@db01 data]# mysql -urep -p123 -h 10.0.0.51 -P 3307 mysql: [Warning] Using a password on the command line interface can be insecure. ERROR 1045 (28000): Access denied for user 'rep'@'db01' (using password: YES) [root@db01 data]# mysql -urepl -p123 -h 10.0.0.52 -P 3307 mysql: [Warning] Using a password on the command line interface can be insecure. ERROR 2003 (HY000): Can't connect to MySQL server on '10.0.0.52' (113) [root@db01 data]# mysql -urepl -p123 -h 10.0.0.51 -P 3309 mysql: [Warning] Using a password on the command line interface can be insecure. ERROR 2003 (HY000): Can't connect to MySQL server on '10.0.0.51' (111) [root@db01 data]# 解决: 1. stop slave 2. reset slave all; 3. change master to 4. start slave
(2) 请求Binlog
-
binlog 没开
-
binlog 损坏,不存在
-
主库执行 reset master 处理:
主库执行 reset master 主从不一致原因
- 因为bin_log文件发生了变化,从库不知道主库新的bin_log文件,故不能同步
故障演示
主库执行
# 把bin_log清零 mysql> reset master;
从库查看
mysql> show slave status \G
解决思路:
在主库执行reset master后,查看新生成的bin_log文件和position
mysql> show master status;
从库执行
stop slave ; reset slave all; CHANGE MASTER TO MASTER_HOST='10.0.0.200', MASTER_USER='repl', MASTER_PASSWORD='123', MASTER_PORT=3307, MASTER_LOG_FILE='mysql-bin.000001', MASTER_LOG_POS=154, MASTER_CONNECT_RETRY=10; start slave;
查看状态
show slave status \G
(3) 存储binlog到relaylog
relaylog权限不够
SQL线程故障
出现的大多数原因,是误在从库中进行了写的操作后,在主库中又执行同样的写入操作。
合理处理方法:
-
如果出现问题,尽量进行反操作
-
最直接稳妥办法,重新构建主从
-
把握一个原则,一切以主库为主.
一劳永逸的方法:
-
(1) 从库只读
-
read_only
-
super_read_only
-
(2) 使用读写分离中间件
-
atlas
-
mycat
-
ProxySQL
-
MaxScale
主从延时监控及原因
出现的问题
主库做了修改操作,从库比较长时间才能追上.
外在因素
-
网络
-
主从硬件差异较大
-
版本差异
-
参数因素
主库方面原因
(1) binlog写入不及时
- sync_binlog=1
(2) 默认情况下dump_t 是串行传输binlog *****
- 在并发事务量大时或者大事务,由于dump_t 是串型工作的,导致传送日志较慢
如何解决问题?
- 必须GTID,使用Group commit方式.可以支持DUMP_T并行
(3) 主库极其繁忙
-
慢语句
-
锁等待
-
从库个数
-
网络延时
从库方面原因
(1) 传统复制(Classic)中 *****
-
如果主库并发事务量很大,或者出现大事务
-
由于从库是单SQL线程,导致,不管传的日志有多少,只能一次执行一个事务.
-
5.6 版本,有了GTID,可以实现多SQL线程,但是只能基于不同库的事务进行并发回放.(database)
-
5.7 版本中,有了增强的GTID,增加了seq_no,增加了新型的并发SQL线程模式(logical_clock),MTS技术
(2) 主从硬件差异太大
(3) 主从的参数配置
(4) 从库和主库的索引不一致
(5) 版本有差异
主从延时的监控分析
从库执行(查看主从延时时间)
show slave status\G
主库执行
mysql> show master status ;
从库查看从主库拿了多少
show slave status\G
从库查看从主库执行了多少
show slave status\G
输出部分结果
Relay_Log_File: oldboyedu-relay-bin.000002 Relay_Log_Pos: 320 Exec_Master_Log_Pos: 154 Relay_Log_Space: 53
(3) 有没有及时回放
cat /data/3308/data/relay-log.info