返回顶部

主从复制

企业高可用性标准

全年无故障率(非计划内故障停机)

  • 99.9% ----> 0.001*365*24*60=525.6 min

  • 99.99% ----> 0.0001*365*24*60=52.56 min

  • 99.999% ----> 0.0001*365*24*60=5.256 min

高可用架构方案

负载均衡:有一定的高可用性 
LVS  Nginx
主备系统:有高可用性,但是需要切换,是单活的架构
KA ,   MHA, MMM
真正高可用(多活系统): 
NDB Cluster  Oracle RAC  Sysbase cluster   , InnoDB Cluster(MGR),PXC , MGC

MySQL Replication(主从复制)

主从复制介绍

  • (1) 主从复制基于binlog来实现的

  • (2) 主库发生新的操作,都会记录binlog

  • (3) 从库取得主库的binlog进行回放

  • (4) 主从复制的过程是异步

主从复制的前提

  • (1) 2个或以上的数据库实例

  • (2) 主库需要开启二进制日志

  • (3) server_id要不同,区分不同的节点

  • (4) 主库需要建立专用的复制用户 (replication slave)

  • (5) 从库应该通过备份主库,恢复的方法进行"补课"

  • (6) 人为告诉从库一些复制信息(ip port user pass,二进制日志起点)

  • (7) 从库应该开启专门的复制线程

主从复制搭建过程

准备多实例

pkill mysqld
systemctl start mysqld3307
\rm -rf /data/3308/data/*
\rm -rf /data/3308/mysql-bin.*
mysqld --initialize-insecure --user=mysql --basedir=/application/mysql --datadir=/data/3308/data
systemctl start mysqld3308
mysql -S /data/3308/mysql.sock -e "select @@port"
mysql -S /data/3307/mysql.sock -e "select @@port";

检查配置文件

  • 主库: 二进制日志是否开启

  • 两个节点: server_id

[root@db01 data]# cat /data/3308/my.cnf 
[mysqld]
basedir=/application/mysql
datadir=/data/3308/data
socket=/data/3308/mysql.sock
log_error=/data/3308/mysql.log
port=3308
server_id=8
log_bin=/data/3308/mysql-bin

[root@db01 data]# cat /data/3307/my.cnf 
[mysqld]
basedir=/application/mysql
datadir=/data/3307/data
socket=/data/3307/mysql.sock
log_error=/data/3307/mysql.log
port=3307
server_id=7
log_bin=/data/3307/mysql-bin
[root@db01 data]# 

主库(3307)创建复制用户

mysql -S /data/3307/mysql.sock -e "grant replication slave on *.* to repl@'10.0.0.%' identified by '123'"

主库的数据备份到从库  

主库备份数据

mysqldump -S /data/3307/mysql.sock -A --master-data=2 --single-transaction -R -E --triggers >/tmp/full.sql

从库导入主库的数据

[root@db01 ~]# mysql -S /data/3308/mysql.sock 
mysql> set sql_log_bin=0;
mysql> source /tmp/full.sql

告知从库关键复制信息

[root@db01 ~]# mysql -S /data/3308/mysql.sock
# 查看帮助信息
help change master to
修改后执行以下语句
CHANGE MASTER TO 
MASTER_HOST='10.0.0.200',
MASTER_USER='repl',
MASTER_PASSWORD='123',
MASTER_PORT=3307,
MASTER_LOG_FILE='mysql-bin.000006',
MASTER_LOG_POS=1305,
MASTER_CONNECT_RETRY=10;

从库开启复制线程(IO,SQL)

[root@db01 ~]# mysql -S /data/3308/mysql.sock 
mysql> start slave;

检查主从复制状态

[root@db01 ~]# mysql -S /data/3308/mysql.sock 
mysql> show slave status \G  

主库创建新数据库alexsb

mysql -S /data/3307/mysql.sock -e "create database alexsb"

从库查看是否存在alexsb数据库  

mysql -S /data/3308/mysql.sock -e "show databases"

主从复制原理

 

 

 

主从复制过程:

  • 1.从库执行change master to 命令(主库的连接信息+复制的起点)

  • 2.从库会将以上信息,记录到master.info文件

  • 3.从库执行 start slave 命令,立即开启IO_T和SQL_T

  • 4. 从库 IO_T,读取master.info文件中的信息

  • 获取到IP,PORT,User,Pass,binlog的位置信息

  • 5. 从库IO_T请求连接主库,主库专门提供一个DUMP_T,负责和IO_T交互

  • 6. IO_T根据binlog的位置信息(mysql-bin.000004 , 444),请求主库新的binlog

  • 7. 主库通过DUMP_T将最新的binlog,通过网络TP给从库的IO_T

  • 8. IO_T接收到新的binlog日志,存储到TCP/IP缓存,立即返回ACK给主库,并更新master.info

  • 9.IO_T将TCP/IP缓存中数据,转储到磁盘relaylog中.

  • 10. SQL_T读取relay.info中的信息,获取到上次已经应用过的relaylog的位置信息

  • 11. SQL_T会按照上次的位置点回放最新的relaylog,再次更新relay.info信息

  • 12. 从库会自动purge应用过relay进行定期清理

补充说明:

  • 一旦主从复制构建成功,主库当中发生了新的变化,都会通过dump_T发送信号给IO_T,增强了主从复制的实时性.

主从复制监控

命令(从库中运行)

mysql> show slave status \G

输出内容以下

主库有关的信息(master.info):
Master_Host: 10.0.0.51
Master_User: repl
Master_Port: 3307
Connect_Retry: 10
*******************************
Master_Log_File: mysql-bin.000004
Read_Master_Log_Pos: 609
*******************************

从库relay应用信息有关的(relay.info):
Relay_Log_File: db01-relay-bin.000002
Relay_Log_Pos: 320
Relay_Master_Log_File: mysql-bin.000004

从库线程运行状态(排错)
Slave_IO_Running: Yes
Slave_SQL_Running: Yes
Last_IO_Errno: 0
Last_IO_Error: 
Last_SQL_Errno: 0
Last_SQL_Error: 			
			
过滤复制有关的信息:			
Replicate_Do_DB: 
Replicate_Ignore_DB: 
Replicate_Do_Table: 
Replicate_Ignore_Table: 
Replicate_Wild_Do_Table: 
Replicate_Wild_Ignore_Table: 
 
从库延时主库的时间(秒):  
Seconds_Behind_Master: 0
				
延时从库:
SQL_Delay: 0
SQL_Remaining_Delay: NULL

GTID复制有关的状态信息		  
Retrieved_Gtid_Set: 
Executed_Gtid_Set: 
Auto_Position: 0

主从复制故障分析

IO 线程故障

(1)连接不上主库

  • 网络,连接信息错误或变更了,防火墙,连接数上线

排查思路

1. 使用复制用户手工登录
[root@db01 data]# mysql -urepl -p12321321 -h 10.0.0.51 -P 3307
mysql: [Warning] Using a password on the command line interface can be insecure.
ERROR 1045 (28000): Access denied for user 'repl'@'db01' (using password: YES)
[root@db01 data]# mysql -urep -p123 -h 10.0.0.51 -P 3307
mysql: [Warning] Using a password on the command line interface can be insecure.
ERROR 1045 (28000): Access denied for user 'rep'@'db01' (using password: YES)
[root@db01 data]# mysql -urepl -p123 -h 10.0.0.52 -P 3307
mysql: [Warning] Using a password on the command line interface can be insecure.
ERROR 2003 (HY000): Can't connect to MySQL server on '10.0.0.52' (113)
[root@db01 data]# mysql -urepl -p123 -h 10.0.0.51 -P 3309
mysql: [Warning] Using a password on the command line interface can be insecure.
ERROR 2003 (HY000): Can't connect to MySQL server on '10.0.0.51' (111)
[root@db01 data]# 

解决: 
1. stop slave 
2. reset slave all;
3. change master to 
4. start slave

(2) 请求Binlog

  • binlog 没开

  • binlog 损坏,不存在

  • 主库执行 reset master 处理:

主库执行 reset master 主从不一致原因

  • 因为bin_log文件发生了变化,从库不知道主库新的bin_log文件,故不能同步

故障演示

主库执行

# 把bin_log清零
mysql> reset master; 

从库查看  

mysql> show slave status \G

 解决思路:

在主库执行reset master后,查看新生成的bin_log文件和position

mysql> show master status;

 从库执行

stop slave ;
reset slave all; 

CHANGE MASTER TO
MASTER_HOST='10.0.0.200',
MASTER_USER='repl',
MASTER_PASSWORD='123',
MASTER_PORT=3307,
MASTER_LOG_FILE='mysql-bin.000001',
MASTER_LOG_POS=154,
MASTER_CONNECT_RETRY=10;
start slave;

查看状态

show slave status \G

(3) 存储binlog到relaylog

relaylog权限不够

SQL线程故障

 出现的大多数原因,是误在从库中进行了写的操作后,在主库中又执行同样的写入操作。

合理处理方法:

  • 如果出现问题,尽量进行反操作

  • 最直接稳妥办法,重新构建主从

  • 把握一个原则,一切以主库为主.

一劳永逸的方法:

  • (1) 从库只读

  • read_only

  • super_read_only

  • (2) 使用读写分离中间件

  • atlas

  • mycat

  • ProxySQL

  • MaxScale

主从延时监控及原因

出现的问题

  • 主库做了修改操作,从库比较长时间才能追上.

外在因素

  • 网络

  • 主从硬件差异较大

  • 版本差异

  • 参数因素

主库方面原因

(1) binlog写入不及时

  • sync_binlog=1

(2) 默认情况下dump_t 是串行传输binlog *****

  • 在并发事务量大时或者大事务,由于dump_t 是串型工作的,导致传送日志较慢

如何解决问题?

  • 必须GTID,使用Group commit方式.可以支持DUMP_T并行

(3) 主库极其繁忙

  • 慢语句

  • 锁等待

  • 从库个数

  • 网络延时

从库方面原因

(1) 传统复制(Classic)中 *****

  • 如果主库并发事务量很大,或者出现大事务

  • 由于从库是单SQL线程,导致,不管传的日志有多少,只能一次执行一个事务.

  • 5.6 版本,有了GTID,可以实现多SQL线程,但是只能基于不同库的事务进行并发回放.(database)

  • 5.7 版本中,有了增强的GTID,增加了seq_no,增加了新型的并发SQL线程模式(logical_clock),MTS技术

(2) 主从硬件差异太大

(3) 主从的参数配置

(4) 从库和主库的索引不一致

(5) 版本有差异

主从延时的监控分析

从库执行(查看主从延时时间)

show slave  status\G

主库执行

mysql> show master status ;

从库查看从主库拿了多少

show slave  status\G

 从库查看从主库执行了多少

show slave  status\G

输出部分结果

Relay_Log_File: oldboyedu-relay-bin.000002
Relay_Log_Pos: 320
Exec_Master_Log_Pos: 154
Relay_Log_Space: 53

 

(3) 有没有及时回放

cat /data/3308/data/relay-log.info

 

 

  

 

posted @ 2020-03-07 22:50  Crazymagic  阅读(216)  评论(0编辑  收藏  举报