2019年4月8日
摘要: 背景 《SRE Google运维解密》里提到SRE自动化系统的一个bug导致几乎所有的数据中心机器被成功下线并进行硬盘擦除。当然这本书出版之后又业界也进行了很多的演进。在我们团队现在很难发生这样的事情。因为团队内人人要遵循的一个设计原则是:原则上禁止批量操作。如需批量,需要有审核流程。批量设置上限。 阅读全文
posted @ 2019-04-08 09:55 编程一生 阅读(588) 评论(0) 推荐(1) 编辑