mysql MHA

主从复制架构演变介绍

基本架构

（1）一主一从
（2）一主多从
（3）多级主从
（4）双主
（5）循环复制

高级应用架构演变

高性能架构

读写分离架构(读性能较高)
代码级别
MySQL proxy (Atlas,mysql router,proxySQL(percona),maxscale)、
amoeba(taobao)
xx-dbproxy等。
分布式架构(读写性能都提高):
分库分表——cobar--->TDDL(头都大了),DRDS
Mycat--->DBLE自主研发等。
NewSQL-->TiDB

高可用架构

（1）单活:MMM架构——mysql-mmm（google）
（2）单活:MHA架构——mysql-master-ha（日本DeNa）,T-MHA
（3）多活:MGR ——5.7 新特性 MySQL Group replication(5.7.17) --->Innodb Cluster  
（4）多活:MariaDB Galera Cluster架构,(PXC)Percona XtraDB Cluster、MySQL Cluster(Oracle rac)架构

高可用MHA

架构工作原理

主库宕机处理过程
1. 监控节点 (通过配置文件获取所有节点信息)
   系统,网络,SSH连接性
   主从状态,重点是主库

2. 选主
(1) 如果判断从库(position或者GTID),数据有差异,最接近于Master的slave,成为备选主
(2) 如果判断从库(position或者GTID),数据一致,按照配置文件顺序,选主.
(3) 如果设定有权重(candidate_master=1),按照权重强制指定备选主.
    1. 默认情况下如果一个slave落后master 100M的relay logs的话，即使有权重,也会失效.
    2. 如果check_repl_delay=0的化,即使落后很多日志,也强制选择其为备选主
3. 数据补偿
(1) 当SSH能连接,从库对比主库GTID 或者position号,立即将二进制日志保存至各个从节点并且应用(save_binary_logs )
(2) 当SSH不能连接, 对比从库之间的relaylog的差异(apply_diff_relay_logs) 
4. Failover
将备选主进行身份切换,对外提供服务
其余从库和新主库确认新的主从关系
5. 应用透明(VIP)
6. 故障切换通知(send_reprt)
7. 二次数据补偿(binlog_server)
8. 自愈自治(待开发...)

架构介绍

1主2从，master：db01   slave：db02   db03 ）：
MHA 高可用方案软件构成
Manager软件：选择一个从节点安装
Node软件：所有节点都要安装

MHA软件构成

Manager工具包主要包括以下几个工具：
masterha_manger             启动MHA 
masterha_check_ssh      检查MHA的SSH配置状况 
masterha_check_repl         检查MySQL复制状况 
masterha_master_monitor     检测master是否宕机 
masterha_check_status       检测当前MHA运行状态 
masterha_master_switch  控制故障转移（自动或者手动）
masterha_conf_host      添加或删除配置的server信息

Node工具包主要包括以下几个工具：
这些工具通常由MHA Manager的脚本触发，无需人为操作
save_binary_logs            保存和复制master的二进制日志 
apply_diff_relay_logs       识别差异的中继日志事件并将其差异的事件应用于其他的
purge_relay_logs            清除中继日志（不会阻塞SQL线程）

MHA环境搭建

规划

主库: 129    node 
从库: 
128      node
130      node    manager
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo

准备环境（1主2从GTID）

#创建数据目录和binlog
mkdir /data/mysql/mysql_data -p
mkdir /data/mysql/log_bin
chown -R mysql:mysql /data/mysql/
useradd -s /sbin/nologin mysql
cat >> /etc/profile <<eof #环境变量
export PATH=/opt/mysql_cluster/mysql/bin:$PATH
eof
source /etc/profile
#配置文件
主库db01：
cat > /etc/my.cnf <<EOF
[mysqld]
basedir=/opt/mysql_cluster/mysql
datadir=/data/mysql/mysql_data
socket=/tmp/mysql.sock
server_id=129
port=3306
secure-file-priv=/tmp
autocommit=0
log_error=/opt/mysql_cluster/mysql/logs/db01.err
log_bin=/data/mysql/log_bin/log_bin
gtid-mode=on
enforce-gtid-consistency=true
binlog_format=row
log-slave-updates=1
[mysql]
socket=/tmp/mysql.sock
prompt=db01 [\\d]>
EOF

slave1(db02)：
cat > /etc/my.cnf <<EOF
[mysqld]
basedir=/opt/mysql_cluster/mysql
datadir=/data/mysql/mysql_data
socket=/tmp/mysql.sock
server_id=128
port=3306
secure-file-priv=/tmp
autocommit=0
log_error=/opt/mysql_cluster/mysql/logs/db02.err
log_bin=/data/mysql/log_bin/log_bin
gtid-mode=on
enforce-gtid-consistency=true
binlog_format=row
log-slave-updates=1
[mysql]
socket=/tmp/mysql.sock
prompt=db02 [\\d]>
EOF

slave2(db03)：
cat > /etc/my.cnf <<EOF
[mysqld]
basedir=/opt/mysql_cluster/mysql
datadir=/data/mysql/mysql_data
socket=/tmp/mysql.sock
server_id=130
port=3306
secure-file-priv=/tmp
autocommit=0
log_error=/opt/mysql_cluster/mysql/logs/db03.err
log_bin=/data/mysql/log_bin/log_bin
gtid-mode=on
enforce-gtid-consistency=true
binlog_format=row
log-slave-updates=1
[mysql]
socket=/tmp/mysql.sock
prompt=db03 [\\d]>
EOF
#初始化数据
mysqld --initialize-insecure --user=mysql --basedir=/opt/mysql_cluster/mysql  --datadir=/data/mysql/mysql_data
systemctl  start mysqld #启动
systemctl  status mysqld  #查看状态
#规划
master:129
slave:128,130
#注意防火墙策略
129:
db01 [(none)]> grant replication slave  on *.* to repl@'172.16.190.%/16' identified by 'Wutonglin2021!';
128,130:
change master to 
master_host='172.16.190.129',
master_user='repl',
master_password='Wutonglin2021!' ,
MASTER_AUTO_POSITION=1;
start slave;

stop slave;#关闭主从复制
reset slave all;  #重置

配置关键程序软连接(所有节点执行)

ln -s /data/mysql/bin/mysqlbinlog    /usr/bin/mysqlbinlog
ln -s /data/mysql/bin/mysql          /usr/bin/mysql
#程序调用时使用的绝对路径，所以必须设置软连接

配置各节点互信

db01：
rm -rf /root/.ssh 
ssh-keygen
cd /root/.ssh 
mv id_rsa.pub authorized_keys
scp  -r  /root/.ssh  172.16.190.128:/root 
scp  -r  /root/.ssh  172.16.190.130:/root 
各节点验证
db01:
ssh 172.16.190.129 date
ssh 172.16.190.128 date
ssh 172.16.190.130 date
db02:
ssh 172.16.190.129 date
ssh 172.16.190.128 date
ssh 172.16.190.130 date
db03:
ssh 172.16.190.129 date
ssh 172.16.190.128 date
ssh 172.16.190.130 date

软件安装

mha官网：https://code.google.com/archive/p/mysql-master-ha/
github下载地址：https://github.com/yoshinorim/mha4mysql-manager/wiki/Downloads

所有节点安装依赖包

yum install perl-DBD-MySQL -y
yum -y install mha4mysql-node-0.56-0.el6.noarch.rpm

db01创建mha用户

 grant all privileges on *.* to mha@'172.16.%' identified by 'mha';

Manager 软件安装(db03)

yum install -y perl-Config-Tiny epel-release perl-Log-Dispatch perl-Parallel-ForkManager perl-Time-HiRes
rpm -ihv mha4mysql-manager-0.56-0.el6.noarch.rpm

配置文件准备（db03）

创建配置文件目录
mkdir -p /etc/mha
创建日志目录
mkdir -p /var/log/mha/app1
编辑mha配置文件
cat > /etc/mha/app1.cnf <<EOF
[server default]
manager_log=/var/log/mha/app1/manager        
manager_workdir=/var/log/mha/app1            
master_binlog_dir=/data/mysql/log_bin
user=mha                                   
password=mha                               
ping_interval=2   #心跳测试(ping)间隔
repl_password=Wutonglin2021!
repl_user=repl
ssh_user=root        #互信用户                       
[server1]        #切换时会参考此处配置的顺序                           
hostname=172.16.190.129
port=3306                                  
[server2]            
hostname=172.16.190.128
port=3306
[server3]
hostname=172.16.190.130
port=3306
EOF

状态检查

### 互信检查
[root@db03 mha]# masterha_check_ssh  --conf=/etc/mha/app1.cnf
Thu Mar 17 10:50:40 2022 - [warning] Global configuration file /etc/masterha_default.cnf not found. Skipping.
Thu Mar 17 10:50:40 2022 - [info] Reading application default configurations from /etc/mha/app1.cnf..
Thu Mar 17 10:50:40 2022 - [info] Reading server configurations from /etc/mha/app1.cnf..
Thu Mar 17 10:50:40 2022 - [info] Starting SSH connection tests..
Thu Mar 17 10:50:43 2022 - [debug]
Thu Mar 17 10:50:40 2022 - [debug]  Connecting via SSH from root@172.16.190.129(172.16.190.129:22) to root@172.16.190.128(172.16.190.128:22)..
Thu Mar 17 10:50:41 2022 - [debug]   ok.
Thu Mar 17 10:50:41 2022 - [debug]  Connecting via SSH from root@172.16.190.129(172.16.190.129:22) to root@172.16.190.130(172.16.190.130:22)..
Thu Mar 17 10:50:42 2022 - [debug]   ok.
Thu Mar 17 10:50:43 2022 - [debug]
Thu Mar 17 10:50:41 2022 - [debug]  Connecting via SSH from root@172.16.190.128(172.16.190.128:22) to root@172.16.190.129(172.16.190.129:22)..
Thu Mar 17 10:50:41 2022 - [debug]   ok.
Thu Mar 17 10:50:41 2022 - [debug]  Connecting via SSH from root@172.16.190.128(172.16.190.128:22) to root@172.16.190.130(172.16.190.130:22)..
Thu Mar 17 10:50:42 2022 - [debug]   ok.
Thu Mar 17 10:50:44 2022 - [debug]
Thu Mar 17 10:50:41 2022 - [debug]  Connecting via SSH from root@172.16.190.130(172.16.190.130:22) to root@172.16.190.129(172.16.190.129:22)..
Thu Mar 17 10:50:42 2022 - [debug]   ok.
Thu Mar 17 10:50:42 2022 - [debug]  Connecting via SSH from root@172.16.190.130(172.16.190.130:22) to root@172.16.190.128(172.16.190.128:22)..
Thu Mar 17 10:50:43 2022 - [debug]   ok.
Thu Mar 17 10:50:44 2022 - [info] All SSH connection tests passed successfully.

错误锦集

[root@db03 mha]# masterha_check_ssh  --conf=/etc/mha/app1.cnf
Can't locate MHA/SSHCheck.pm in @INC (@INC contains: /usr/local/lib64/perl5 /usr/local/share/perl5 /usr/lib64/perl5/vendor_perl /usr/share/perl5/vendor_perl /usr/lib64/perl5 /usr/share/perl5 .) at /usr/bin/masterha_check_ssh line 25.
BEGIN failed--compilation aborted at /usr/bin/masterha_check_ssh line 25.

问题定位：应该是环境变量的问题
[root@DBproxy app1]# find / -name SSHCheck.pm
/usr/lib/perl5/vendor_perl/MHA/SSHCheck.pm

将相关路径加入PERL5LIB后，问题解决（根本原因是MHA和OS版本不匹配）。
export PERL5LIB=$PERL5LIB:/usr/lib/perl5/vendor_perl/

主从状态检查

[root@db03 ~]# masterha_check_ssh  --conf=/etc/mha/app1.cnf 
[root@db03 ~]# masterha_check_repl  --conf=/etc/mha/app1.cnf

错误锦集

[root@db03 ~]# masterha_check_repl  --conf=/etc/mha/app1.cnf 
……
Can't locate MHA/BinlogManager.pm in @INC (@INC contains: /usr/local/lib64/perl5 /usr/local/share/perl5 /usr/lib64/perl5/vendor_perl /usr/share/perl5/vendor_perl /usr/lib64/perl5 /usr/share/perl5 .) at /usr/bin/apply_diff_relay_logs line 24.
BEGIN failed--compilation aborted at /usr/bin/apply_diff_relay_logs line 24.
Thu Mar 17 10:55:08 2022 - [error][/usr/lib/perl5/vendor_perl//MHA/ManagerUtil.pm, ln151] node version on 172.16.190.128 not found! Maybe MHA Node package is not installed?
yum install perl-ExtUtils-CBuilder perl-ExtUtils-MakeMaker
#### 所有的错误都是因为节点版本和管理器版本不一致
#### 所有的错误都是因为节点版本和管理器版本不一致
#### 所有的错误都是因为节点版本和管理器版本不一致

开启mha（db03）

nohup masterha_manager --conf=/etc/mha/app1.cnf --remove_dead_master_conf --ignore_last_failover  < /dev/null> /var/log/mha/app1/manager.log 2>&1 &
#--remove_dead_master_conf 删除故障节点
#ignore_last_failover  mha有避免频繁切换保护机制，多长时间内不让再次切换，实验时可以加个不同意

mha工作过程

1、读取conf=/etc/mha/app1.cnf配置文件
2、获取node相关节点的信息(
3、调用masterha_check_ssh脚本使用ssh_user=root进行互信检查
4、调用masterha_check_repl脚本检查主从复制情况
5、manager启动成功
6、通过masterha_master_monitor以ping_interval=2为间隔持续监控主库的状态（网络、主机、数据库）
7、当manager监控到master宕机，开始选主过程
  (1) 如果判断从库(position或者GTID),数据有差异,最接近于Master的slave,成为备选主
  (2) 如果判断从库(position或者GTID),数据一致,按照配置文件顺序,选主.
  (3) 如果设定有权重(candidate_master=1),按照权重强制指定备选主.
    1. 默认情况下如果一个slave落后master 100M的relay logs的话，即使有权重,也会失效.
    2. 如果check_repl_delay=0的化,即使落后很多日志,也强制选择其为备选主
8、判断主库ssh的连通性：
9、数据补偿
  (1) 当SSH能连接,从库对比主库GTID 或者position号,立即将二进制日志保存至各个从节点并且应用(save_binary_logs )
  (2) 当SSH不能连接, 对比从库之间的relaylog的差异(apply_diff_relay_logs) 
10、Failover：将备选主进行身份切换,对外提供服务，其余从库和新主库确认新的主从关系
11、移除配置文件中故障节点，MHA在切换完成后会自杀，为保障下次切换成功需要修复MHA

查看mha状态

[root@db03 mysql_cluster]# masterha_check_status --conf=/etc/mha/app1.cnf
app1 (pid:14805) is running(0:PING_OK), master:172.16.190.129
[root@db03 mysql_cluster]# mysql -umha -pmha -h 172.16.190.129 -e "show variables like 'server_id'"
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| server_id     | 129   |
+---------------+-------+
[root@db03 mysql_cluster]# mysql -umha -pmha -h 172.16.190.128 -e "show variables like 'server_id'"
mysql: [Warning] Using a password on the command line interface can be insecure.
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| server_id     | 128   |
+---------------+-------+
[root@db03 mysql_cluster]# mysql -umha -pmha -h 172.16.190.130 -e "show variables like 'server_id'"
mysql: [Warning] Using a password on the command line interface can be insecure.
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| server_id     | 130   |
+---------------+-------+

故障模拟及处理

### 停主库db01:    
[root@db01 opt]# systemctl stop mysqld
观察manager  日志 tail -f /var/log/mha/app1/manager
末尾必须显示successfully，才算正常切换成功。   
##切换后mha会自杀所以状态会变成NOT_RUNNING
[root@db03 mysql_cluster]# masterha_check_status --conf=/etc/mha/app1.cnf
app1 is stopped(2:NOT_RUNNING).
[root@db03 mysql_cluster]# mysql -umha -pmha -h 172.16.190.129 -e "show variables like 'server_id'"
mysql: [Warning] Using a password on the command line interface can be insecure.
ERROR 2003 (HY000): Can't connect to MySQL server on '172.16.190.129' (111)

修复故障库

[root@db01 ~]# /etc/init.d/mysqld start
#如果主库数据损坏或丢失，需要备份现主库的数据来还原

恢复主从结构

[root@db03 mysql_cluster]# grep -i 'CHANGE MASTER TO ' /var/log/mha/app1/manager
Thu Mar 17 17:17:15 2022 - [info]  All other slaves should start replication from here. Statement should be: CHANGE MASTER TO MASTER_HOST='172.16.190.128', MASTER_PORT=3306, MASTER_AUTO_POSITION=1, MASTER_USER='repl', MASTER_PASSWORD='xxx';
#从日志中过滤出恢复主从的相关信息
db01 [(none)]> CHANGE MASTER TO 
MASTER_HOST='172.16.190.128',
MASTER_PORT=3306, 
MASTER_AUTO_POSITION=1, 
MASTER_USER='repl', 
MASTER_PASSWORD='Wutonglin2021!';
db01 [(none)]>start slave ;
db01 [(none)]>show slave status\G; #手动检查主从状态

修改配置文件(db03)

[root@db03 mysql_cluster]# vim /etc/mha/app1.cnf
[server1]
hostname=172.16.190.129
port=3306

启动MHA

nohup masterha_manager --conf=/etc/mha/app1.cnf --remove_dead_master_conf --ignore_last_failover  < /dev/null> /var/log/mha/app1/manager.log 2>&1 &

[root@db03 mysql_cluster]# masterha_check_status --conf=/etc/mha/app1.cnf
app1 (pid:81422) is running(0:PING_OK), master:172.16.190.128

Manager额外参数介绍

说明：
主库宕机谁来接管？
1. 所有从节点日志都是一致的，默认会以配置文件的顺序去选择一个新主。
2. 从节点日志不一致，自动选择最接近于主库的从库
3. 如果对于某节点设定了权重（candidate_master=1），权重节点会优先选择。
但是此节点日志量落后主库100M日志的话，也不会被选择。可以配合check_repl_delay=0，关闭日志量的检查，强制选择候选节点。

(1)  ping_interval=1
#设置监控主库，发送ping包的时间间隔，尝试三次没有回应的时候自动进行failover
(2) candidate_master=1
#设置为候选master，如果设置该参数以后，发生主从切换以后将会将此从库提升为主库，即使这个主库不是集群中事件最新的slave;配置参数直接写到server下就可以
(3)check_repl_delay=0
#默认情况下如果一个slave落后master 100M的relay logs的话，
MHA将不会选择该slave作为一个新的master，因为对于这个slave的恢复需要花费很长时间，通过设置check_repl_delay=0,MHA触发切换在选择一个新的master的时候将会忽略复制延时，这个参数对于设置了candidate_master=1的主机非常有用，因为这个候选主在切换的过程中一定是新的master

MHA的vip功能

参数

master_ip_failover_script=/usr/local/bin/master_ip_failover
注意：/usr/local/bin/master_ip_failover，必须事先准备好

vim /usr/local/bin/master_ip_failover 
#!/usr/bin/env perl
use strict;
use warnings FATAL => 'all';
use Getopt::Long;
use MHA::DBHelper;
my (
  $command,        $ssh_user,         $orig_master_host,
  $orig_master_ip, $orig_master_port, $new_master_host,
  $new_master_ip,  $new_master_port,  $new_master_user,
  $new_master_password
);
my $vip = '192.168.168.100/24';
my $key = "1";
my $ssh_start_vip = "/sbin/ifconfig ens33:$key $vip";
my $ssh_stop_vip = "/sbin/ifconfig ens33:$key down";

GetOptions(
  'command=s'             => \$command,
  'ssh_user=s'            => \$ssh_user,
  'orig_master_host=s'    => \$orig_master_host,
  'orig_master_ip=s'      => \$orig_master_ip,
  'orig_master_port=i'    => \$orig_master_port,
  'new_master_host=s'     => \$new_master_host,
  'new_master_ip=s'       => \$new_master_ip,
  'new_master_port=i'     => \$new_master_port,
  'new_master_user=s'     => \$new_master_user,
  'new_master_password=s' => \$new_master_password,
);
exit &main();
sub main {
  if ( $command eq "stop" || $command eq "stopssh" ) {

    # $orig_master_host, $orig_master_ip, $orig_master_port are passed.
    # If you manage master ip address at global catalog database,
    # invalidate orig_master_ip here.
    my $exit_code = 1;
    eval {

      # updating global catalog, etc
      $exit_code = 0;
    };
    if ($@) {
      warn "Got Error: $@\n";
      exit $exit_code;
    }
    exit $exit_code;
  }
    elsif ( $command eq "start" ) {

        # all arguments are passed.
        # If you manage master ip address at global catalog database,
        # activate new_master_ip here.
        # You can also grant write access (create user, set read_only=0, etc) here.
        my $exit_code = 10;
        eval {
            print "Enabling the VIP - $vip on the new master - $new_master_host \n";
            &start_vip();
            &stop_vip();
            $exit_code = 0;
        };
        if ($@) {
            warn $@;
            exit $exit_code;
        }
        exit $exit_code;
    }
    elsif ( $command eq "status" ) {
        print "Checking the Status of the script.. OK \n";
        `ssh $ssh_user\@$orig_master_host \" $ssh_start_vip \"`;
        exit 0;
    }
    else {
        &usage();
        exit 1;
    }
}
sub start_vip() {
    `ssh $ssh_user\@$new_master_host \" $ssh_start_vip \"`;
}
# A simple system call that disable the VIP on the old_master 
sub stop_vip() {
   `ssh $ssh_user\@$orig_master_host \" $ssh_stop_vip \"`;
}
sub usage {
  print
"Usage: master_ip_failover --command=start|stop|stopssh|status --orig_master_host=host --orig_master_ip=ip --orig_master_port=port --new_master_host=host --new_master_ip=ip --new_master_port=port\n";
}

修改脚本内容

vi  /usr/local/bin/master_ip_failover
my $vip = '172.16.190.133/24';  #vip地址
my $key = '1';
my $ssh_start_vip = "/sbin/ifconfig ens33:$key $vip"; #网卡名
my $ssh_stop_vip = "/sbin/ifconfig ens33:$key down";

更改Mangager配置文件

vi /etc/mha/app1.cnf
添加：
master_ip_failover_script=/usr/local/bin/master_ip_failover
注意：
[root@db03 ~]# dos2unix /usr/local/bin/master_ip_failover 
dos2unix: converting file /usr/local/bin/master_ip_failover to Unix format ...
[root@db03 ~]# chmod +x /usr/local/bin/master_ip_failover

主库上手动生成第一个vip地址

#在主库上操作
手工在主库上绑定vip，注意一定要和配置文件中的ethN一致，我的是eth0:1(1是key指定的值)
ifconfig ens33:1  172.16.190.133/24
ifconfig ens33:1  down  #ip 地址配置错误的话使用该命令处理

重启mha

masterha_stop --conf=/etc/mha/app1.cnf
nohup masterha_manager --conf=/etc/mha/app1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null > /var/log/mha/app1/manager.log 2>&1 &

邮件提醒

1. 参数：
report_script=/usr/local/bin/send
2. 准备邮件脚本
send_report
(1)准备发邮件的脚本(上传 email_2019-最新.zip中的脚本，到/usr/local/bin/中)
(2)将准备好的脚本添加到mha配置文件中,让其调用

3. 修改manager配置文件，调用邮件脚本
vi /etc/mha/app1.cnf
report_script=/usr/local/bin/send

（3）停止MHA
masterha_stop --conf=/etc/mha/app1.cnf
（4）开启MHA    
nohup masterha_manager --conf=/etc/mha/app1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null > /var/log/mha/app1/manager.log 2>&1 &
        
(5) 关闭主库,看警告邮件  
故障修复：
1. 恢复故障节点
（1）实例宕掉
/etc/init.d/mysqld start 
（2）主机损坏，有可能数据也损坏了
备份并恢复故障节点。
2.恢复主从环境
看日志文件：
CHANGE MASTER TO MASTER_HOST='10.0.0.52', MASTER_PORT=3306, MASTER_AUTO_POSITION=1, MASTER_USER='repl', MASTER_PASSWORD='123';
start slave ;
3.恢复manager
3.1 修好的故障节点配置信息，加入到配置文件
[server1]
hostname=10.0.0.51
port=3306
3.2 启动manager   
nohup masterha_manager --conf=/etc/mha/app1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null > /var/log/mha/app1/manager.log 2>&1 &

binlog server （db03）

参数

binlogserver配置：
找一台额外的机器，必须要有5.6以上的版本，支持gtid并开启，我们直接用的第二个slave（db03）
vim /etc/mha/app1.cnf 
[binlog1]
no_master=1 #不参与选主 
hostname=172.16.190.130
master_binlog_dir=/data/mysql/binlogz

创建必要目录

mkdir -p /data/mysql/binlogz
chown -R mysql.mysql /data/*
修改完成后，将主库binlog拉过来（从000001开始拉，之后的binlog会自动按顺序过来）

拉取主库binlog日志

cd /data/mysql/binlog     -----》必须进入到自己创建好的目录,想把日志文件同步到哪里就在哪里执行mysqlbinlog命令
mysqlbinlog  -R --host=172.16.190.128 --user=mha --password=mha --raw  --stop-never log_bin.000003 &  #以流方式实时从主库将binlog日志拉取到本地(binlog日志从当前从库的顺序号拉)
注意：
拉取日志的起点,需要按照目前从库的已经获取到的二进制日志点为起点及binlog日志名

重启MHA

masterha_stop --conf=/etc/mha/app1.cnf
nohup masterha_manager --conf=/etc/mha/app1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null > /var/log/mha/app1/manager.log 2>&1 &

故障处理

主库宕机，binlogserver 自动停掉，manager 也会自动停止。
处理思路：
1、重新获取新主库的binlog到binlogserver中
2、重新配置文件binlog server信息
3、最后再启动MHA

mha重新启动

1、将所有节点mysql服务都启动
2、恢复1主2从的状态
grep -i 'CHANGE MASTER TO ' /var/log/mha/app1/manager
CHANGE MASTER TO MASTER_HOST='172.16.190.128', MASTER_PORT=3306, MASTER_AUTO_POSITION=1, MASTER_USER='repl', MASTER_PASSWORD='Wutonglin2021!';
3、检查vip ifconfig ens33:1  172.16.190.133/24
4、检查配置文件，补全缺失节点信息
vim /etc/mha/app1.cnf
5、启动前预检查
[root@db03 ~]# masterha_check_ssh  --conf=/etc/mha/app1.cnf 
[root@db03 ~]# masterha_check_repl  --conf=/etc/mha/app1.cnf 
6、启动MHA
nohup masterha_manager --conf=/etc/mha/app1.cnf --remove_dead_master_conf --ignore_last_failover  < /dev/null> /var/log/mha/app1/manager.log 2>&1 &
[root@db03 mysql_cluster]# masterha_check_status --conf=/etc/mha/app1.cnf
app1 (pid:81422) is running(0:PING_OK), master:172.16.190.128

管理员在高可用架构维护职责

1. 搭建：MHA+VIP+SendReport+BinlogServer
2. 监控及故障处理
3.  高可用架构的优化
    核心是：尽可能降低主从的延时，让MHA花在数据补偿上的时间尽量减少。
    5.7 版本，开启GTID模式，开启从库SQL并发复制。

posted @ 2022-04-07 21:40 吴桐林阅读(98) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 主从复制，延时从库，半同步，过滤复制，GTID复制

· mycat

· MySQL系列之MHA高可用——主从复制架构演变介绍、高可用MHA、管理员在高可用架构维护的职责

· MySQL之MHA高可用配置及故障切换实例

· MHA高可用配置及故障切换

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配，妙~啊~

公告

昵称：吴桐林
园龄： 7年11个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

mysql MHA

基本架构

高级应用架构演变

高性能架构

高可用架构

高可用MHA

架构工作原理

架构介绍

MHA软件构成

MHA环境搭建

规划

准备环境（1主2从GTID）

配置关键程序软连接(所有节点执行)

配置各节点互信

软件安装

所有节点安装依赖包

db01创建mha用户

Manager 软件安装(db03)

配置文件准备（db03）

状态检查

错误锦集

主从状态检查

错误锦集

开启mha（db03）

mha工作过程

查看mha状态

故障模拟及处理

修复故障库

恢复主从结构

修改配置文件(db03)

启动MHA

Manager额外参数介绍

MHA的vip功能

参数

修改脚本内容

更改Mangager配置文件

主库上手动生成第一个vip地址

重启mha

邮件提醒

binlog server （db03）

参数

创建必要目录

拉取主库binlog日志

重启MHA

故障处理

mha重新启动

管理员在高可用架构维护职责

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜