电商系统-运维中台

运维中台

灾备是应对大型故障的保底措施，最好的结局是永远不要触发，但是大促前需要做好灾备切换演练，可以选择大促前用户量少的时间段进行：

包括物理机、Docker 容器、以及对交换机、IP 进行监控

借助zabbix等开源软件对机器资源配置监控，如果采用云化部署，各大云供应商都会配备完善的监控机制

主动监控，日志或消息队列形式打点输出，定时汇报（日志平台追踪课题）

被动监控，添加监控接口，监控系统定时请求确认可用性

对具体业务点做监控处理，如订单量、登录量、注册量、某些页面的访问量等关键点采用异步消息方式推送到监控中心，监控中心针对特定队列的数据做统计和展示。

主动监控依然无法察觉的情况下，来自客服的一线反馈成为最后关卡。优先级也最高。开发故障快速响应平台，做到实时性保障。做到客服 - 业务线 - 产品 - 技术排查的及时响应，快速排查。

网络带宽是影响访问流量的重要因素，做好各个机房网络带宽预估，数据在两地机房间传输并且要求低延迟的场景，如数据库主从，可以考虑机房专线。使用公有云的服务，可以购买临时流量。

对容量做预估和硬件资源盘点。配合大促期间不同服务的架构设计，以及项目本身的特性，对cpu，内存做评估。偏运算的项目，重度使用多线程的项目偏cpu，需要大量对象或集合处理的项目偏内存。

所有项目容器化部署，基于镜像即版本理念，打好各个服务的镜像是docker快速复制扩容的基础。大促前对各个中心微服务做统计和盘点。

借助k8s，快速实现容器的伸缩。

posted @ 2021-09-17 12:01 请务必优秀阅读(239) 评论(0) 收藏举报

刷新页面返回顶部