Centos 7 下 Corosync + Pacemaker + psc 实现 httpd 服务高可用

一、介绍

  高可用,大家可能会想到比较简单的Keepalived,或者更早一点的 heartbeat,也可能会用到 Corosync+Pacemaker,那么他们之间有什么区别。

  Heartbeat到了v3版本后,拆分为多个子项目:Heartbeat、cluster-glue、Resource Agent、Pacemaker。

    Heartbeat:只负责维护集群各节点的信息以及它们之前通信。

    Cluster-glue:当于一个中间层,可以将heartbeat和crm(pacemaker)联系起来,主要包含2个部分,LRM和STONITH;

      Resource Agent :用来控制服务启停,监控服务状态的脚本集合,这些脚本将被LRM调用从而实现各种资源启动、停止、监控等等。

    pacemaker:原Heartbeat 拆分出来的资源管理器,用来管理整个HA的控制中心,客户端通过pacemaker来配置管理监控整个集群。它不能提供底层心跳信息传递的功能,它要想与对方节点通信需要借助底层(新拆分的heartbeat或corosync)的心跳传递服务,将信息通告给对方。

 

  Pacemaker 配置文件比较不太容易修改,可以使用命令行界面的crmsh、pcs和图形化界面pygui、hawk等进行管理,看个人喜好。

  Heartbeat 和 Corosync 的区别:

    1、经过安装heartbeat 体验,Heartbeat 配置比较简单,主要修改三个文件即可:  ha.cf、  haresources、  authkeys ,但是在支持多节点的时候不知道个人配置问题,还是其他,脑裂严重(查看很多博客说只支持2个节点),并且自带的服务脚本较少,很多服务监控脚本需要自己编写。

    2、Heartbeat只能为所有的资源配置一个主服务,而corosync则允许为不同的资源组配置不同的主服务 ,corosync支持多个节点的集群,支持把资源进行分组,按照组进行资源的管理,设置主服务,自行进行启停 。

    3、管理资源的灵活性:在corosync中,其会自行处理配置文件的同步问题,heartbeat则无此功能 

二、环境

  1、系统:CentOS Linux release 7.4.1708 (Core)  三台

  2、hosts (三个节点修改):

    10.6.32.20  ceph1

    10.6.32.21  ceph2

    10.6.32.22  ceph3

  3、时间同步 chrony

  4、关闭防火墙 firewalld 和 Selinux。

  5、配置节点ssh信任(controller1 节点操作)。

      # ssh-keygen   (生成默认证书即可)

      # ssh-copy-id 127.0.0.1

      # 将 .ssh 文件拷贝覆盖到其他节点。

      # scp -r .ssh/ root@ceph2:/root/

      # scp -r .ssh/ root@ceph3:/root/

三、配置安装

  1、安装(all-node

    # yum install -y pacemaker pcs psmisc policycoreutils-python

   2、查看服务是否已安装

    # rpm -qa | grep corosync

    # rpm -qa | grep pacemaker

    # rpm -qa | grep pcs

    # rpm -qa | grep psmisc

    # rpm -qa | grep policycoreutils-python

    

    安装完成之后,会生成一个用户:hacluster ,供集群使用。

    

  3、启动 pcs 服务,并设置开机自启动(all-node

     # systemctl start pcsd.service

     # systemctl enable pcsd.service

     

    创建了一个软连接。

  4、设置 hacluster密码 

    安装组件生成的hacluster用户,用来本地启动pcs进程,因此我们需要设定密码,每个节点的密码相同。

     

  5、验证集群节点(其中一个节点测试)

    # pcs cluster auth ceph1 ceph2 ceph3

     

  6、生成corosync 配置文件 (其中一个节点操作

    # pcs cluster setup --name openstack_cluster ceph{1,2,3}

    

    建立集群:openstack_cluster,生成corosync文件 /etc/corosync/corosync.conf

   7、启动集群并设置开机自启动 (其中一个节点操作

    # pcs cluster start --all    (# all 参数标识所有节点生效,不加all 本地生效,也可以指定某节点:pcs cluster start ceph2

    # pcs cluster enable --all

     

  8、查看集群

    1、查看 集群状态

      # pcs status

         

        Online: ceph1 ceph2 ceph3  存活, 0 resources configured:还没有配置资源 ,有一个 WARNING 报错。

     2、查看corosync 

      # corosync-cfgtool -s

         

      # corosync-cmapctl | grep members      #查看成员信息

         

      # pcs status corosync      #查看状态

         

    3、查看 pacemaker 

      # ps axf |grep pacemaker

         

  9、检查配置文件

    # crm_verify -L -V

      

      为保证集群数据安全,pacemaker默认启动STONITH 。因没有配置,先禁用

    # pcs property set stonith-enabled=false        # 禁用 STONITH

    #  crm_verify -L -V    

       

  10、添加虚拟IP(VIP)

    # pcs resource create VIP ocf:heartbeat:IPaddr2 ip=10.6.32.254 cidr_netmask=32 op monitor interval=30s

       

    添加成功,目前虚拟IP在 ceph1 节点上,通过 ip add list 可查看。(虚拟ip:10.6.32.254 资源名称:VIP,检测时间:30s/次)

    # ip add list

       

  11、httpd 高可用

    1、开启 apache status url 监控页

      # vim /etc/httpd/conf.d/status.conf        

<Location /server-status>
SetHandler server-status
Order deny,allow
Deny from all
Allow from all
</Location>

 

     2、关闭 httpd 服务,添加httpd 资源时会重新启动http服务,如果不关闭,会报错。

      # systemctl stop httpd

    3、添加 httpd 资源 到集群。

      # pcs resource create WebSite ocf:heartbeat:apache configfile=/etc/httpd/conf/httpd.conf statusurl="http://localhost/server-status" op monitor interval=30s

      

      创建了一个httpd 的集群资源 WebSite,主节点在 ceph2 上。检测页:http://localhost/server-status, 检测时间:30s/次。 但是有一个新的问题,虚拟IP在ceph1 上, httpd资源在 ceph2 上,会导致客户端无法访问。如果VIP在任何节点都不存在,那么WebSite也不能运行。

     4、设置 资源检测超时时间

      # pcs resource op defaults timeout=120s

      # pcs resource op defaults

       

    5、绑定服务资源和 VIP 资源,始终保持在一个节点上

      # pcs constraint colocation add WebSite with VIP INFINITY

      

  12、浏览器访问测试

    

    成功!!!!

  OK,博客到此处,已经搞定需求。

五、后期维护+知识扩展    

  1、上节提到创建 服务资源, ocf:heartbeat:apache  这是是用来告诉pacemaker,第一个部分ocf,指明了这个资源采用的标准(类型)以及在哪能找到它。第二个部分标明这个资源脚本的在ocf中的名字空间,在这个例子中是heartbeat。最后一个部分指明了资源脚本的名称。

  2、查看 pacemaker 默认支持的资源

    1、查看资源采用的标准类型

      # pcs resource standards

      

    2、查看可用的ocf资源提供者

      # pcs resource providers

       

    3、查看特定标准下所支持的脚本,例:ofc:heartbeat 下的脚本

      # pcs resource agents ocf:heartbeat

       

 

  3、手动切换某节点到 standby 状态及取消standby 状态

    # pcs cluster standby ceph1

    

    # pcs cluster unstandby ceph1

  4、防止资源在节点恢复后立即迁移

    # pacemaker默认所有节点的stickiness都为0

    # pcs resource defaults resource-stickiness=100

    # pcs resource defaults   #查看

     

  5、重启资源

    #  pcs resource restart resource_name

   6、查看帮助

    # pcs resource --help

   7、清理集群错误日志

    # pcs resource cleanup

  8、在集群节点小于2个,无法仲裁时,忽略仲裁,保证业务提供(集群所有节点均正常时配置)

    # pcs property set no-quorum-policy=ignore

posted @ 2018-03-06 19:25  语~默  阅读(4025)  评论(1编辑  收藏  举报