手把手带你认识GaussDB轻量化运维管理工具

本文分享自华为云社区《GaussDB轻量化运维管理工具介绍》,作者: Gauss松鼠会小助手。

一、GaussDB 运维管理平台简介

cke_152.png

开放生态层

  • 友好Web界面,多云皮肤个性化定制
  • 丰富的原子API
  • 公有云、合运营、HCSO、边缘云IES、HCS、轻量化、统一版本

基础+智能运维能力

  • 丰富的基础运维能力
  • 打造端到端全链路的智能自制运维平台,覆盖自监控、自诊断、自调优、自恢复和自安全全量功能,一键部署,精准实施;

标准化代理层

  • 全方位多层安全防护,精细隔离设计
  • 精准管理进程资源消耗控制,极少性能损耗
  • 标准化南向接口规范各引警插件化接入原子操作

通过授权,登录到GaussDB运维管理平台,我们可以看到如下界面:

1、实例总览界面

cke_153.png

2、实例详情页面

cke_154.png

二、GaussDB 运维管理平台功能介绍

1、平台管理功能

作为管控平台,云数据库GaussDB管理平台具备完善的安全防护策略。主要是通过用户角色和用户组划分,细粒度的控制各个角色的访问执行权限,守护运维的安全。

cke_155.png

基本功能:

1、管理用户(user): 支持管理员对普通用户进行增加、删除、锁定、重置密码、用户和实例(Instance)、用户组的绑定等操作

2、管理用户组(user_group): 可以将用户加入用户组中,针对整个用户组可以设置统一的角色,用户可以同时加到多个用户组中

3、角色管理(Role): 可以自定义角色,增加对应的权限(permission),支持细粒度权限

4、管理活跃用户会话: 可以查看当前登录中的用户,管理员可以结束会话

5、后台功能: 提供鉴权、校验弱密码等接口,密码会校验规则和弱密码,加密后存入元库中。

2、实例管理功能

cke_156.png

1、实例纳管

2、实例解除纳管

3、实例启停

4、实例扩容

5、实例升级管理

6、实例容灾管理

7、实例告警管理

8、实例巡检管理

三、GaussDB管理平台实例管理基本功能

1、纳管实例

  • 数据库实例安装完成后,状态为Normal>则可以使用GaussDB管理平台将实例进行纳管。
  • 纳管前需将实例主机录入主机管理中进行管理。
  • 输入实例节点任意一个管理IP地址,点击检查实例节点,检查主机是否已经录入主机管理,主机状态在线则已经录入允许导入,主机状态离线则未录入,无法执行导入。
  • 所有主机都在线后。输入实例名称,管理员用户名,管理员密码点击提交按钮下发纳管流程。

1.1 添加主机

cke_157.png

1.2 纳管实例

cke_158.png

2、取消纳管实例

cke_159.jpeg

  • GaussDB 运维管理平台可以取消纳管已经导入并纳管的数据库实例。
  • 首先在主页上找到要取消纳管的实例
  • 点击“更多”->“取消纳管”
  • 页面弹出对话框进行管理员密码的输入

3、实例启停

GaussDB 运维管理平台支持对所纳管的数据库实例进行基本的启停操作,主要包括停止实例启动实例、重启实例等。

cke_160.png

  • 在主页找到需要管理的实例,点击“更多”–>“停止实例”来停止实例运行
  • 对于已经停止运行的实例,点击“更多”–>“启动实例”来启动实例运行
  • 也可以直接点击“更多”–>“重启实例”来快速对实例进行重启

4、实例卸载

GaussDB 运维管理平台支持对所纳管的数据库实例进行一键式卸载。

cke_161.png

注:删除实例属于高危操作,需要输入“delete”进行二次确认。

  • GaussDB 运维管理平台可以一键式删除已经导入并纳管的数据库实例。
  • 首先在主页上找到要删除的实例,然后点击“更多”->“删除实例”。
  • 页面弹出对话框进行二次确认。

5、节点扩容

随着业务的增长,数据库在运行性能及存储上逐渐会达到瓶颈。此时,需要通过增加节点来提升实例的性能及存储能力。GaussDB支持节点扩容操作。扩容方案如下:

cke_162.png

cke_163.png

在线扩容主要分为加节点和数据重分布两个阶段,除切换元数据外均支持在线业务。

  • 加节点阶段:主要完成新的CN/DN节点的安装、元信息同步、启动等操作。
  • 数据重分布阶段:主要完成基线数据搬迁、增量数据搬迁(在线业务)、切换元数据等操作。

cke_164.png

注:同步元信息的目的在于为后续数据重分布做准备

向新增的DN、CN节点同步元数据:

1、同步基础元信息:数据库、模式、表空间

2、同步普通元信息:用户表、函数

3、建立新的nodegroup(为扩容后的新集群)

4、元信息同步完成后切换installation group为新建nodegroup

GaussDB 运维管理平台支持对所纳管的分布式数据库实例进行节点扩容。

cke_165.png

  • “实例管理”界面,单击具体实例名称,进入“基本信息”界面。
  • 在“数据库信息”模块的“节点数量”后,单击“添加”进入“节点扩容”页面。

cke_166.png

  • 选择节点数量和管理地址,管理地址数量需要与新增节点数量一致,管理地址可用区分布需要符合部署方案。
  • 确认“实例扩容过程中会有锁表操作,可能会阻塞业务,属于高危操作。请选择在业务低峰期进行该操作。” 风险提示信息,并勾选“我已确认阅读上述风险提示”。
  • 单击“下一步”进入“规格确认”界面。

cke_167.png

  • 确认无误后,单击“提交”,进行扩容。
  • 数据库实例状态将显示为“添加节点中”,则说明扩容指令下发成功。

注意事项

  • 扩容是指分片扩容,扩容的节点仅包含CN、DN,不含有其他组件。
  • 扩容以节点组为单位,扩容节点的组件分布形态与扩容前实例分布规律相同。
  • 主备版部署模式暂时不支持扩容。
  • 存在故障节点的实例不允许扩容。
  • 实例扩容过程中会有锁表操作,可能会阻塞业务,属于高危操作。请选择在业务低峰期进行该操作。
  • 扩容前,需要满足所有DN节点剩余可用空间大于DN节点的最大单表空间。

四、GaussDB管理平台实例升级功能

1、GaussDB升级方式

升级过程涉及系统表和数据表变更,重启进程,有版本兼容风险和业务中断问题,根据升级方式,业务中断时间,风险评估对比如下:

cke_168.png

大小版本升级方式比较

cke_169.png

2、就地升级

cke_170.png

  • 找到需要升级的实例点击更多进行版本升级
  • 版本升级选择就地升级方式
  • 选择对应的目标版本

3、灰度升级

灰度升级分为两种方式:

1、升级自动提交方式: 所有节点一起升级,在升级过程中有大概10秒的业务中断

2、升级待观察后提交方式: 将数据库升级过程细分为升级待观察和升级提交两个阶段

  • 升级待观察阶段

    升级待观察阶段可以按照AZ升级,也可以对升级的AZ进行回滚,所有AZ升级完成后可以对实例进行业务测试

  • 升级提交阶段

    提交当前的升级,提交后不可回滚

3.1 灰度升级-升级自动提交

cke_171.png

  • 在实例管理主页找到需要升级的实例点击“版本升级”。
  • 在弹窗中选择升级自动提交的操作方式和目标版本进行升级。

3.2 灰度升级-升级待观察阶段

cke_172.png

  • 灰度升级选择升级待观察
  • 选择升级可用区中AZ进行升级
  • 选择目标版本进行升级

3.3 灰度升级-升级待提交阶段

cke_173.png

  • 升级完所有可用区的AZ之后,选择提交升级,对实例进行真正的升级
  • 观察阶段发现升级的版本有问题,可以选择升级回退

五、GaussDB 运维管理平台实例容灾管理

GaussDB 运维管理平台流式容灾管理的主要功能:

  • 容灾搭建
  • 容灾状态查看
  • 容灾倒换
  • 灾备升主
  • 容灾解除
  • 容灾演练(规划中)
  • 容灾快速加回(规划中)

流式容灾:基于流复制的容灾解决方案

cke_174.png

1、容灾搭建

cke_175.png

  • 主数据库实例配置灾备数据库实例信息,等待灾备数据库实例连接过来进行全量复制
  • 灾备数据库实例完成全量build之后,将与主数据库实例建立流式复制进行日志的增量复制

cke_176.png

2、容灾状态查看

cke_177.png

在容灾管理界面,可以查看到已经创建好的容灾关系组,并支持对容灾实例进行容灾倒换、灾备升主、容灾解除等操作。

cke_178.png

如上图,在容灾详情页面,可以查看容灾基本信息,容灾RTO、RPO数值,以及灾备状态指标;灾备实例分片日志差距、灾备实例分片日志落盘速率、灾备实例分片待回放日志量、灾备实例分片日志回放速率。

3、容灾倒换

cke_179.png

  • 可以通过容灾倒换,将容灾关系中主备实例角色互换,原来的主变为备实例,原来的备变为主实例
  • 容灾倒换命令不会解除容灾关系

cke_180.png

4、灾备升主

cke_181.png

可以通过灾备升主,将容灾备实例提升为一个包含主DN的实例,使其可以对外提供服务,升主成功后,之前的容灾关系将失效。

cke_182.png

5、容灾解除

cke_183.png

  • 容灾解除,是使得主实例清除维护的对端容灾信息。
  • 清除后,主实例可以重新建立新的容灾关系。

6、容灾演练

1.准备两个正常的实例

2.创建两个实例的容灾关系

cke_184.png

3.主实例发生严重故障

cke_185.png

4.对备实例进行升主,对外提供服务

cke_186.png

5.对主实例进行维修,然后执行容灾解除

6.重新搭建容灾关系

cke_187.png

7.进行容灾倒换,恢复初始的容灾关系

cke_188.png

六、GaussDB管理平台实例监控告警

1、告警统计

实时告警与历史告警:

  • 告警基本信息:告警id,告警名称,告警类型,告警状态类型、告警实例
  • 告警表现:告警时间、告警级别、告警描述、告警持续时间、告警节点IP、通知状态
  • 告警数据分析:告警可能原因、影响、优化建议

cke_189.png

2、告警管理

cke_190.png

告警模板管理:默认模板包括默认文本模板以及默认JSON模板

3、监控大盘

列表看板:

通过将实例进行平铺展示的方式,横向对比各个实例的基本指标信息,包括CPU使用率、内存使用率等。

cke_191.png

趋势看板:

cke_192.png

  • 展示单个实例的全方位详细监控指标。
  • 指标范围包括:CPU/内存、磁盘/存储、网络、连接、业务负载锁、同步状态、进程资源等。

希望本节课程对大家对GaussDB运维管理平台的工具有所了解,欢迎大家共同学习交流。

 

点击关注,第一时间了解华为云新鲜技术~

 

posted @ 2024-03-08 14:15  华为云开发者联盟  阅读(83)  评论(0编辑  收藏  举报