▓▓那些年那些新人捅的篓子▓▓

1.2021年6月,字节的一位实习生误删了公司机器学习平台 Lagrange Lite 全量 Batch 模型的备份,原因是扁平化管理,实习生与正式员工有同样的文档权限。有人表示删的都是离线数据,影响不大。还有人表示重新训练模型和延迟上线,理论上都会对指标有负向,只是不那么明显了。
 
2.亚马逊扁平化管理,SDE啥活儿都要干,权限一视同仁。AWS的一个新人在上班第一天做熟悉开发环境自助培训时,他本来想连测试环境,结果连不上,老员工给了他一个配置,他没分清哪个是测试的,哪个是生产的,不小心连上了生产环境数据库,于是把整个数据库给 Rebuild 了,导致全美 Netflix 停服数小时
 
3.2014年某领导安排妹子在生产服务器上本意卸载重新安装 Oracle,但脚本中有一句话:rm -rf $ORACLE_BASE/*
不幸变量 ORACLE_BASE 未赋值!
于是乎 Tomcat/MySQL...全删了
由于没有及时发现,造成部分数据写入磁盘,加大了不可恢复的几率!
更悲剧的是,找到脱机备份,发现备份文件只有1KB,里面只有几行熟悉的 mysqldump 注释。可用的、最接近的备份时间是2013年年底!
欲知后事如何,请看:https://www.cnblogs.com/zhouyu629/p/3734494.html
 
4.2021年3月,一位实习生为了炫耀自己的新工作,拍摄并分享了德国柏林海德丁监狱内钥匙的照片。当地司法部门得知这起泄密事件后,监狱随即连夜换锁,旧钥匙也被立即销毁。
柏林司法部发言人对媒体说:“所有牢房和通道的门锁都被更换了,该实习生也被禁止进入监狱,他的实习也就此终止。”他还补充称,更换600把锁的费用可能会由这名见习生负担,预估5万欧元。
 
5.某云计算厂商,一位试用期员工,在业务巡检系统上,原本应输入“last reboot”命令,结果看文档的时候这条命令自动折行了,他只看到了后一句“reboot”,于是这句“reboot”就被自动化工具给广播出去了,生产环境里所有节点重启!//感谢网友向昀哥提供这条讯息
 
6.某年某电商平台双十一之前,代码原本应该用“disconnect”命令来断开与 Redis 之间的连接,没想到新人代码中写的却是“shutdown”命令!于是乎……
 
昀哥写作于2021年6月24日
关键词:责任事故,安全,运维,实习生,新人
-全文完,如果觉得有收获,记得点推荐或“收藏”-

posted @ 2021-06-25 14:37  老兵笔记  阅读(801)  评论(0编辑  收藏  举报