运维军规
运维军规
服务:运维应7*24响应,随时随地,核心研发和产品经理也应保持联系。
监控:基础(磁盘、内存、CPU、网络)和业务(端口、进程、URL可用性、rt响应时间、日志等)监控齐备。
告警处理是第一优先级工作,任何告警都要第一时间响应。定期检查安全扫描。
故障:业务故障,运维应第一时间通知业务测试人员、核心研发、产品经理。并按SLA升级。
变更:按服务上线/变更流程。任何变更都要提前通报,操作前备份,准备回滚/降级方案,操作步骤命令行;
严格小流量和灰度;理论上周二、周四变更,严禁高峰窗口和节假日前一天操作;
变更后,按照checklist来排查,运维排查程序,测试人员、研发、产品经理第一时间确认服务,double check。完成变更后,产品经理通报case closed。
备份:线上数据,应按重要性合理备份,服务变更前必须备份。定期检查备份,测试备份数据可用性。