电商系统-运维中台

运维中台

做好灾备

灾备是应对大型故障的保底措施,最好的结局是永远不要触发,但是大促前需要做好灾备切换演练,可以选择大促前用户量少的时间段进行:

  1. 前期准备:两地灾备程序同步维护,大促相关的迭代和活动专题上线确保两地测试ok,镜像版本统一
  2. 数据库配置两地主从,或双主单写。切换前做好数据同步性检查
  3. 启用脚本,切换代理服务器,代理流量转入灾备机房,正式环境还需要处理dns指向
  4. 分布式文件灾备日常采用rsync等实时同步,采用云存储的可以忽略
  5. es索引等其他数据确保日常同步
  6. 注意挂好维护页,友好提示
  7. 配备自动化测试脚本以便快速验证切换结果

配备监控

1)基础设施监控

包括物理机、Docker 容器、以及对交换机、IP 进行监控

借助zabbix等开源软件对机器资源配置监控,如果采用云化部署,各大云供应商都会配备完善的监控机制

2)应用级监控

主动监控,日志或消息队列形式打点输出,定时汇报 (日志平台追踪课题)

被动监控,添加监控接口,监控系统定时请求确认可用性

3)业务监控

对具体业务点做监控处理,如订单量、登录量、注册量、某些页面的访问量等关键点采用异步消息方式推送到监控中心,监控中心针对特定队列的数据做统计和展示。

4)客服一线反馈

主动监控依然无法察觉的情况下,来自客服的一线反馈成为最后关卡。优先级也最高。开发故障快速响应平台,做到实时性保障。做到客服 - 业务线 - 产品 - 技术排查的及时响应,快速排查。

资源盘点

1)网络设施扩容

网络带宽是影响访问流量的重要因素,做好各个机房网络带宽预估,数据在两地机房间传输并且要求低延迟的场景,如数据库主从,可以考虑机房专线。使用公有云的服务,可以购买临时流量。

2)硬件资源盘点

对容量做预估和硬件资源盘点。配合大促期间不同服务的架构设计,以及项目本身的特性,对cpu,内存做评估。偏运算的项目,重度使用多线程的项目偏cpu,需要大量对象或集合处理的项目偏内存。

3)容器盘点

所有项目容器化部署,基于镜像即版本理念,打好各个服务的镜像是docker快速复制扩容的基础。大促前对各个中心微服务做统计和盘点。

借助k8s,快速实现容器的伸缩。

posted @ 2021-09-17 12:01  请务必优秀  阅读(197)  评论(0编辑  收藏  举报