摘要: 背景 最近和小伙伴们吐槽,发现在产品故障review,尤其是涉及到运维的故障review的时候有两个经常背锅的兄弟——“流程”和“监控”。 一般伴随着 发布流程有问题,变更流程不规范,工单流程错误等。 监控呢?基本上就是监控未覆盖,监控报警阈值不合理。 监控问题是运维的重心,这部分内容有机会展开,这 阅读全文
posted @ 2018-06-24 14:52 白下 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 最近组内正在编写memcache的运维手册,围绕memcache运维在研读整理资料时发现有一块不可跳跃,那就是facebook几年前对于memcache的运维总结。 相关一手资料如下: 1 FaceBook工程师分享的视频 <!--?xml version="1.0" encoding="UTF-8 阅读全文
posted @ 2018-06-24 13:03 白下 阅读(907) 评论(0) 推荐(0) 编辑