2018年5月2日
摘要: 1、事故背景 上周三凌晨,我负责的某个模块在多台机器上连续发生coredump,幸好发生在业务低峰期,而且该模块提供的功能也不是核心流程功能,所以对线上业务影响比较小。发生coredump后,运维收到报警后立马拉起了服务,服务宕机时间为3分钟左右。 2、事故分析 第二天立即组织了事故分析小组,对事故 阅读全文
posted @ 2018-05-02 21:04 天际线_skyline 阅读(921) 评论(0) 推荐(0) 编辑