随笔分类 - 线上排障
汇总线上故障处理的实践和经验。
摘要:今天系统版本发布,多个因素凑到一起引发线上故障。这个排障过程做的不是很好,存在很多改进的地方,作为排障的反面教材,分享给大家。
阅读全文
摘要:一次线上环境omm问题排查及解决示例。
阅读全文
摘要:线上故障通常是指大规模的影响线上服务可用性的问题或者事件,通俗点讲就是:掉‘坑’里了,这个‘坑’就是线上故障!线上故障的处理过程可以形象地表达为:‘踩坑’、‘跳坑’、‘填坑’、‘避坑’。
线上故障的处理不仅是一项技术活,更是对技术人员/技术团队反应能力、决策能力、判定能力、组织能力的考验。面对突发的生产故障,需要快速定位问题,找到解决方案,快速实施解决方案并不是一件容易的事情。本文主要包括如下内容:线上故障处理的目标、思路、步骤、基础设施。
阅读全文
摘要:系统背景介绍 用户系统负责用户生命周期管理,包括注册、登陆、用户信息获取等,其作为基础服务只提供内网服务,简称为service;application组件包装service的服务对app渠道提供服务;service前面使用F5作为负载均衡器。 架构简图如下: 线上故障事件描述 上午9点50分,监控系
阅读全文