1. 基本信息
部署机器 | 角色 | 部署路径 |
---|
192.168.242.71 | MySQL-Mater + MHA-Node | MySQL: /alidata1/mysql-5.7.43 |
192.168.242.72 | MySQL-Slave + MHA-Node | MHA-Node: /alidata1/admin/tools/mha4mysql-node-0.58 |
192.168.242.73 | MySQL-Slave + MHA-Node | |
192.168.242.74 | MHA-Manager | MHA-Manager: /alidata1/admin/tools/mha4mysql-manager-0.58 |
192.168.242.100 | VIP | |
2. 简介
## 简介
MHA(Master HA) 是一款开源的 MySQL 的高可用程序,它为 MySQL主从复制架构提供了自动化主故障转移功能.
MHA 在监控到 master 节点故障时,会提升其中拥有最新数据的 slave 节点成为新的master节点, 在此期间,MHA 会通过于其它从节点获取额外信息来避免一致性方面的问题.
MHA 还提供了 master 节点的在线切换功能,即按需切换 master/slave 节点.
MHA 能够在30秒内实现故障切换,并能在故障切换中,最大可能的保证数据一致性.## 原理
(1) 获取从宕机崩溃的 master 保存二进制日志事件(binlog events)
(2) 识别含有最新更新的 slave
(3) 将差异的中继日志(relay log)应用到其他 slave
(4) 将 master 保存的二进制日志事件(binlog events)应用到要提升为master节点的slave
(5) 将这 slave 只读模式解除并提升为新 master, 重新部署主从关系
3. 安装MHA
3.1 提前操作
## 1. 安装mysql主从 -- 略
## MHA-0.58 支持GTID ,只要保证MySQL主从关系正常即可## 2. 所有机器两两之间ssh免密
## (1) 在任意一台机器使用root用户执行命令ssh-keygen生成公秘钥(如 192.168.242.71), 然后ssh-copy-id到所有机器(192.168.242.71/72/73/74)
## (2) 将此机器的公秘钥scp到所有机器(192.168.242.71/72/73/74)## 2. MySQL-Master主机配置虚拟ip -- 192.168.242.71
# /sbin/ifconfig ens33:1 192.168.242.100/24
3.2 安装MHA-Node
## 1.将安装包上传到所有机器, 包括MHA-Manager机器 (192.168.242.71/72/73/74)
# pwd
/alidata1/admin/tools/
# tar xf mha4mysql-node-0.58.tar.gz## 2.编译
# cd mha4mysql-node-0.58
# yum install -y make gcc perl-DBD-MySQL perl-Config-Tiny perl-Log-Dispatch perl-Parallel-ForkManager perl-ExtUtils-CBuilder perl-ExtUtils-MakeMaker perl-CPAN
# perl Makefile.PL
# make && make install
3.3 安装MHA-Manager
## 1.将安装包上传MHA-Manager机器 (192.168.242.74)
# pwd
/alidata1/admin/tools/
# tar xf mha4mysql-manager-0.58.tar.gz## 2.编译
# cd mha4mysql-manager-0.58
# yum install -y make gcc perl-DBD-MySQL perl-Config-Tiny perl-Log-Dispatch perl-Parallel-ForkManager perl-ExtUtils-CBuilder perl-ExtUtils-MakeMaker perl-CPAN
# perl Makefile.PL
# make && make install## 3.拷贝可执行文件到/usr/local/bin
# chmod +x samples/scripts/*
# cp samples/scripts/* /usr/local/bin/## 4. 修改可执行文件 /usr/local/bin/master_ip_failover, 内容如下
#!/usr/bin/env perl
use strict;
use warnings FATAL => 'all';use Getopt::Long;my (
$command, $ssh_user, $orig_master_host, $orig_master_ip,
$orig_master_port, $new_master_host, $new_master_ip, $new_master_port
);
#############################添加内容部分#########################################
my $vip = '192.168.242.100'; ## 指定vip的地址 192.168.242.100
my $brdc = '192.168.242.255'; ## 指定vip的广播地址 192.168.242.255
my $ifdev = 'ens33'; ## 指定vip绑定的网卡 ens33
my $key = '1'; ## 指定vip绑定的虚拟网卡序列号
my $ssh_start_vip = "sudo /sbin/ifconfig ens33:$key $vip"; ## 代表此变量值为ifconfig ens33:1 192.168.242.100
my $ssh_stop_vip = "sudo /sbin/ifconfig ens33:$key down"; ## 代表此变量值为ifconfig ens33:1 192.168.242.100 down
my $exit_code = 0; ## 指定退出状态码为0#my $ssh_start_vip = "/usr/sbin/ip addr add $vip/24 brd $brdc dev $ifdev label $ifdev:$key;/usr/sbin/arping -q -A -c 1 -I $ifdev $vip;iptables -F;";
#my $ssh_stop_vip = "/usr/sbin/ip addr del $vip/24 dev $ifdev label $ifdev:$key";##################################################################################
GetOptions(
'command=s' => \$command,
'ssh_user=s' => \$ssh_user,
'orig_master_host=s' => \$orig_master_host,
'orig_master_ip=s' => \$orig_master_ip,
'orig_master_port=i' => \$orig_master_port,
'new_master_host=s' => \$new_master_host,
'new_master_ip=s' => \$new_master_ip,
'new_master_port=i' => \$new_master_port,
);exit &main();sub main {print "\n\nIN SCRIPT TEST====$ssh_stop_vip==$ssh_start_vip===\n\n";if ( $command eq "stop" || $command eq "stopssh" ) {my $exit_code = 1;
eval {
print "Disabling the VIP on old master: $orig_master_host \n";
&stop_vip();
$exit_code = 0;
};
if ($@) {
warn "Got Error: $@\n";
exit $exit_code;
}
exit $exit_code;
}
elsif ( $command eq "start" ) {my $exit_code = 10;
eval {
print "Enabling the VIP - $vip on the new master - $new_master_host \n";
&start_vip();
$exit_code = 0;
};
if ($@) {
warn $@;
exit $exit_code;
}
exit $exit_code;
}
elsif ( $command eq "status" ) {
print "Checking the Status of the script.. OK \n";
exit 0;
}
else {
&usage();
exit 1;
}
}
sub start_vip() {
`ssh root\@$new_master_host \" $ssh_start_vip \"`; ## 直接写死root 否则主从切换时报错 ssh_user 没有初始化
}
## A simple system call that disable the VIP on the old_master
sub stop_vip() {
`ssh root\@$orig_master_host \" $ssh_stop_vip \"`; ## 直接写死root 否则主从切换时报错 ssh_user 没有初始化
}sub usage {
print
"Usage: master_ip_failover --command=start|stop|stopssh|status --orig_master_host=host --orig_master_ip=ip --orig_master_port=port --new_master_host=host --new_master_ip=ip --new_master_port=port\n";
}## 5.新建配置文件
# vim /alidata1/admin/tools/mysql_mha.conf
[server default]
## 指定manager日志路径
manager_log=/alidata1/admin/logs/mha4mysql/manager.log
## 指定manager工作目录
manager_workdir=/alidata1/admin/tools/mha4mysql-manager-0.58
## 指定mha在远程节点上的工作目录
remote_workdir=/alidata1/admin/tools/mha4mysql-manager-0.58
## 指定master保存binlog的位置,这里的路径要与master里配置的binlog的路径一致,以便MHA能找到
master_binlog_dir=/alidata1/mysql-5.7.43/binlog
## 设置监控主库,发送ping包的时间间隔,默认是3秒,尝试三次没有回应的时候自动进行failover
ping_interval=1
## 设置自动failover时候的切换脚本
master_ip_failover_script=/usr/local/bin/master_ip_failover
user=admin
password=Mysql_Admin_wMMpb8ks9
repl_user=repl
repl_password=Mysql_Repl_oOev7cU4h
port=3306
secondary_check_script=/usr/local/bin/masterha_secondary_check -s 192.168.242.72 -s 192.168.242.73
ssh_user=root[server1]
hostname=192.168.242.71
port=3306
ssh_user=root[server2]
hostname=192.168.242.72
port=3306
ssh_user=root
# candidate_master=1 ## 设置为候选master,设置该参数以后,发生主从切换以后将会将此从库提升为主库,即使这个从库不是集群中最新的slave
# check_repl_delay=0 ## 默认情况下如果一个slave落后master 超过100M的relay logs的话 ## MHA将不会选择该slave作为一个新的master, 因为对于这个slave的恢复需要花费很长时间## 通过设置check_repl_delay=0 MHA触发切换在选择一个新的master的时候将会忽略复制延时, ## 这个参数对于设置了candidate_master=1的主机非常有用,因为这个候选主在切换的过程中一定是新的master[server3]
hostname=192.168.242.73
port=3306
ssh_user=root## 5.启动MHA-Manager
## --remove_dead_master_conf: 当成功failover后,MHA manager将会自动删除配置文件中关于dead master的配置选项
## --ignore_last_failover: 如果最近failover 失败,MHA 将不会再次开启failover机制,因为这个问题可能再次发生。## 常规步骤:手动清理failover 错误文件,此文件一般在manager_workdir/app_name.failover.error文件,然后在启动failover机制。## 如果设置此参数,MHA 将会继续failover 不管上次的failover状态。
# nohup masterha_manager --conf=/alidata1/admin/tools/mha4mysql-manager-0.58/mysql_mha.conf --remove_dead_master_conf --ignore_last_failover > /alidata1/admin/logs/mha4mysql/mha_manager.log < /dev/null 2>&1 &## 6. 常用命令 -- MHA-Manager机器执行
## (1) 测试 ssh 连通性
# masterha_check_ssh --conf=/alidata1/admin/tools/mha4mysql-manager-0.58/mysql_mha.conf
## (2) 测试 mysql 主从连接情况
# masterha_check_repl -conf=/alidata1/admin/tools/mha4mysql-manager-0.58/mysql_mha.conf
## (3) 查看状态
# masterha_check_status --conf=/alidata1/admin/tools/mha4mysql-manager-0.58/mysql_mha.conf
## (4) 停止
## masterha_stop --conf=/alidata1/admin/tools/mha4mysql-manager-0.58/mysql_mha.conf
4. 模拟MySQL-Master 宕机
## 1. 使用命令行先初始化一些数据
# ./bin/mysql -h192.168.242.100 --port=3306 --user=admin -p'Mysql_Admin_wMMpb8ks9'
mysql> create database db_test;
mysql> create table db_test.t_test ( `id` int NOT NULL AUTO_INCREMENT, `name` varchar(255) DEFAULT NULL, PRIMARY KEY (`id`) );# for i in `seq 1 2500`; do ./bin/mysql -h192.168.242.100 -uadmin -p'Mysql_Admin_wMMpb8ks9' -e "insert into db_test.t_test(id, name) values($i,$i);"; done## 2. 停止MySQL-master
# systemctl stop mysqld ## 192.168.242.71上操作## 大约15s后 虚拟ip 192.168.242.100会转移到192.168.242.72上
## 在192.168.242.73上执行 show slave status\G 会发现主节点已变成192.168.242.72
## 同时 MHA-Manager 进程会停止
## 从日志/alidata1/admin/logs/mha4mysql/mha_manager.log 可以看到 15:34:35发现主节点不可用 15:34:51迁移完成
5.原来主节点恢复到MHA集群中
## 1. 新的主节点上增加一些数据 -- 模拟验证
# for i in `seq 2501 5000`; do ./bin/mysql -h192.168.242.100 -uadmin -p'Mysql_Admin_wMMpb8ks9' -e "insert into db_test.t_test(id, name) values($i,$i);"; done## 2.将旧主(192.168.242.71) 配置成新主(192.168.242.72)的从节点
## 2.1 修改新主(192.168.242.72)配置, 注释掉 read_only = on## 2.2 修改配置 /etc/my.cnf [mysqld] 下新增配置
log_slave_updates = 1 ## 从库会将自己执行的事务写入到从库的二进制日志中 主主模式需要## 这样做的目的是为了保证主从复制链路的完整性和一致性 以便其他从库可以正确地复制从库上执行的事务## A >> B >> C
read_only = on
relay_log = /alidata1/mysql-5.7.43/logs/relay.log
relay_log_purge = on
relay_log_recovery = on## 2.3 启动旧主(192.168.242.71)上的musql
# systemctl restart mysqld ## 2.4 新主(192.168.242.72,)上备份数据 并恢复到旧主(192.168.242.71)
# mysqldump -uroot -p'Mysql_Root_lj11tLZgs' --single-transaction --set-gtid-purged=ON -A -B > all.sql ## 备份 192.168.242.72执行
## 数据恢复到 192.168.242.71
# mysql -uroot -p'Mysql_Root_lj11tLZgs' -e 'reset master;'
# mysql -uroot -p'Mysql_Root_lj11tLZgs' < all.sql## 2.5 配置主从 -- 192.168.242.71 操作
mysql > stop slave;
mysql > CHANGE MASTER TO MASTER_HOST='192.168.242.72',MASTER_USER='repl',MASTER_PASSWORD='Mysql_Repl_oOev7cU4h',MASTER_PORT=3306,MASTER_AUTO_POSITION=1;
mysql > start slave;
mysql > show slave status\G;## 3. 修改MHA-Manager配置并启动 -- 192.168.242.74
# pwd
/alidata1/admin/tools/mha4mysql-manager-0.58
# rm -rf mysql_mha.failover.complete
# vim mysql_mha.conf
...
secondary_check_script=/usr/local/bin/masterha_secondary_check -s 192.168.242.71 -s 192.168.242.73
...[server1]
hostname=192.168.242.71
port=3306
ssh_user=root# nohup masterha_manager --conf=/alidata1/admin/tools/mha4mysql-manager-0.58/mysql_mha.conf --remove_dead_master_conf --ignore_last_failover > /alidata1/admin/logs/mha4mysql/mha_manager.log < /dev/null 2>&1 &## 至此MHA集群已经恢复, 此时将192.168.242.72上mysql关闭后,VIP会再次漂移,表示集群状态正常