project accident / 99999 5min / 9999 50min / 999 8hour / 99 3.5day
s
- 国内云计算玩家
- 宕机判断标准
不同可用性下的最大宕机时间 , https://www.cnblogs.com/wjoyxt/p/7477095.html
序号 | 可用性% | 一年宕机时间 | 一月宕机时间 | 一周宕机时间 | 一天宕机时间 |
备注 运维常说的 5个9、4个9、3个9 的可靠性,到底是什么?https://www.cnblogs.com/wjoyxt/p/7477095.html |
1 | 90%(1个9) | 36.50d | 72h | 16.8h | 2.4h |
- - 2023-10-24 语雀运维升级软件造成宕机8小时 P0
- 2023-03-29 唯品会南沙机房冷冻系统故障造成宕机 P0
- |
2 | 99%(2个9) |
3.65d |
7.2h | 1.68h | 14.4min | |
3 | 99.9%(3个9) | 8.76h | 43.8min | 10.1min | 1.44min |
电脑或服务器
3个9:(1-99.9%)*365*24=8.76小时,表示该系统在连续运行1年时间里最多可能的业务中断时间是8.76小时。
|
4 | 99.99%(4个9) | 52.56min | 4.38min | 1.01min | 8.66s |
企业级设备 4个9:(1-99.99%)*365*24=0.876小时=52.6分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是52.6分钟。 |
5 | 99.999%(5个9) | 5.26min | 25.9s | 6.05s | 864.sms |
一般电信级设备 5个9:(1-99.999%)*365*24*60=5.26分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是5.26分钟。 |
6 | 99.9999%(6个9) | 0.5min | - | - | - |
更高要求电信级设备 |
- 宕机原因分类
宕机原因 | 描述 | 案例 | 备注 |
---|---|---|---|
内存故障 | 内存硬件或软件故障,如内存模块损坏、内存泄漏等 | ||
CPU 过载 | CPU 负载过高,无法处理系统负荷 | ||
磁盘故障 | 硬盘或文件系统故障,导致读写失败或文件系统崩溃 | ||
网络问题 | 网络连接中断或异常,导致系统无法正常通信 | ||
操作系统错误 | 操作系统发生错误,如内核崩溃、系统调用失败等 | ||
软件 Bug | 程序或应用程序存在缺陷,导致系统异常 | ||
电源问题 | 电源供应故障,导致服务器或计算机无法正常运行 | ||
高温 | 温度过高,导致硬件故障或系统自动关机保护 | ||
安全攻击 | 恶意攻击或病毒感染,导致系统服务不稳定或崩溃 | ||
配置错误 | 错误的系统配置,可能导致不稳定性或无法启动 | ||
软硬件不兼容 | 不兼容的硬件或软件组合,可能导致系统不稳定或崩溃 | ||
硬件故障 | 服务器的硬件组件(如电源、内存、硬盘、主板等)出现故障,导致系统无法正常工作。 | ||
软件问题 | 操作系统、应用程序或驱动程序出现错误、崩溃或冲突,导致系统不稳定甚至宕机。 | ||
资源耗尽 | CPU、内存、磁盘空间或网络带宽等资源耗尽,使服务器无法继续运行。 | ||
网络问题 | 网络故障、网络攻击(如DDoS攻击)或网络设备问题导致服务器无法正常访问或通信。 | ||
电力问题 | 电源不稳定、电压波动、电力供应中断等问题导致服务器关机或宕机。 | ||
安全问题 | 恶意攻击、病毒、恶意软件或黑客入侵导致服务器宕机或无法正常工作。 | ||
操作错误 | 误操作、配置错误或不当的系统管理操作可能导致服务器不稳定或宕机。 | ||
数据库问题 | 数据库故障、死锁、数据损坏等问题可能影响应用程序和服务器的正常运行。 | ||
温度问题 | 过高的温度可能导致服务器硬件损坏或系统关机,尤其是在散热不良的情况下。 | 2023.3.29 唯品会南沙机房高温宕机 |
- 2024-04-08 腾讯云控制台API故障
4 月 8 日 15:15分,我的企业微信开始收到服务器报警,报警内容大概表述的信息为:SCF(云函数)、COS(对象存储)、数据万象出现 API 请求问题,原因均为:[TencentCloudSDKException]message:An internal error has occurred. Retry your request, but if the problem persists, contact us.
17:16 分,官方微博宣布整体恢复,除了上海 API 服务之外其他的均以恢复。目测只是个别服务的 API 不可用。
- 2023-11-27/28 滴滴因系统故障导致App服务异常,不显示定位且无法打车



滴滴在实施Kubernetes (K8s) 时,曾遭遇多次故障,主要涉及集群管理、服务调度、资源分配等方面。以下是滴滴的一些典型K8s故障复盘的重点: 1. K8s 集群崩溃 原因: 大量请求对 API Server 和 ETCD 施加了超负荷压力,导致集群控制平面无法响应。 解决方案: 滴滴通过优化 ETCD 存储结构、对 API Server 进行限流和分区管理来缓解压力。还将集群管理工具进行扩展,提升监控和日志分析能力。 2. 服务调度不稳定 原因: Kubernetes 的调度器无法根据实际资源利用率进行合理的 Pod 分配,造成了部分节点资源过载,而其他节点资源空闲。 解决方案: 滴滴对调度策略进行了调整,增加了自定义的资源打分逻辑,并引入基于历史数据的预测模型,提升调度的智能化水平。 3. 网络故障导致服务中断 原因: Flannel 网络插件的配置错误,以及跨数据中心网络连接不稳定,造成服务无法正常通信。 解决方案: 滴滴更换了网络插件,将 Flannel 替换为性能更好的 Calico,并通过引入服务网格 (Service Mesh) 进行流量治理。还提升了网络监控能力,提前检测并解决潜在的网络瓶颈。 4. 容器资源超卖 原因: 在计算资源配置时,部分节点 CPU 和内存超额分配,导致容器应用在资源竞争下无法正常运行。 解决方案: 滴滴通过改进资源限额配置,严格限制每个容器的最大资源使用。还引入了动态伸缩机制,确保服务能根据流量变化自动调配资源。 5. CI/CD 流水线卡顿 原因: Kubernetes 在与滴滴内部的 CI/CD 系统整合时,由于构建任务过多,CI 系统负载过高,部署时间拉长。 解决方案: 通过优化构建流水线,减少冗余的编译和部署步骤。同时,滴滴还引入了基于 Kubernetes 的自动化测试和灰度发布策略。 6. 日志与监控缺失 原因: 早期 Kubernetes 集群缺乏足够的日志和监控手段,导致故障出现时无法迅速定位问题。 解决方案: 滴滴通过集成 Prometheus 和 ELK 堆栈(Elasticsearch, Logstash, Kibana),实现了对容器和集群的全面监控,提升了故障排查和响应速度。 经验总结: 故障预防: 提升监控和预警系统,及时感知异常。 自动化运维: 利用 CI/CD 流水线、自动化测试、灰度发布降低人为操作带来的风险。 资源优化: 科学配置资源限额,避免超卖导致的性能瓶颈。 定制化策略: 根据自身业务特点对 Kubernetes 的调度、网络和存储等功能进行深度定制。 滴滴在 K8s 使用过程中逐渐积累了经验,并且通过不断优化和调整,最终提升了集群的稳定性和可用性。
- 2023-11-12 阿里云宕机事件
https://status.aliyun.com/#/historyEvent
- 2023-10-24 语雀宕机8小时
https://juejin.cn/post/7293448323527983130
语雀方面表示,10月23日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具bug,导致华东地区生产环境存储服务器被误下线。
- 2023-10-10 工商银行美国子公司勒索病毒事件分析
https://zhuanlan.zhihu.com/p/667394006
事件过程 2023年10月10日 Citrix Bleed漏洞被披露。 2023年10月25日 AssetNote公布Citrix Bleed漏洞的PoC以及分析。 2023年11月9日 ICBC Financial Services遭受了勒索病毒攻击。 2023年11月10日 网络犯罪组织Lockbit在Tox(一款加密通讯软件)上证实其入侵ICBC Financial Services的行为。 2023年11月13日 Lockbit代表通过Tox告诉路透社ICBC交了赎金,但并未透露赎金金额(TLP RED)。 事件分析 据瑞典网络安全公司 Truesec 创始人 Marcus Murray 表示,此次事件中Lockbit使用的勒索软件为LockBit 3.0。 有关此次入侵手段的消息大多指向CVE-2023-4966(Citrix NetScaler ADC & Citrix NetScaler Gateway信息泄露漏洞),攻击者通过未打补丁的Citrix NetScaler设备进行了入侵。 CVE-2023-4966是Citrix的一个缓冲区溢出漏洞,由于Citrix的开发者对snprintf函数返回值的理解有误,造成了缓冲区越界读取,从而导致了敏感信息(会话Cookie)的泄露。 漏洞位于/netscaler/nsppe二进制文件中,nsppe是NetScaler的数据包处理引擎,它包含完整的 TCP/IP 网络堆栈以及多个 HTTP 服务。在13.1-49.15和13.1-48.47的nsppe对比中,可以发现ns_aaa_oauth_send_openid_config和ns_aaa_oauthrp_send_openid_config执行了额外的边界检查,这些两个函数都分别可以通过/oauth/idp/.well-known/openid-configuration和/oauth/rp/.well-known/openid-configuration进行未经身份验证的访问。 作者:hu1y40 , 2023年11月17日 , 洞源实验室 全球云服务企业思杰Citrix发布公开信,宣布正式退出中国市场。该决定将于2023年12月3日生效。
- 2023-11-08 22点 ChatGPT 服务中断近 2 小时
北京时间 11 月 8 日晚 22 点左右,OpenAI 旗下 ChatGPT 以及相关 API 出现中断故障,导致面向用户和开发者的服务近 2 小时无法正常使用。
- 2023-06-08 广东电信大规模无服务,4/5G信号恢复到2G,4小时
去年1月12日凌晨,有大量用户反映中国电信出现断网,波及全国多个城市。随后,中国电信回复称,“由于网络设备故障,导致出现互联网拥塞。”
2021年12月10日,陕西电信也发生过突发性大规模断网事件。陕西电信回应,该次事故是由于中国电信陕西公司互联网域名解析服务出现故障导致的,西安、渭南、宝鸡等地部分网站登录受到影响。
截至2023年4月底,中国电信总客户数首次超过4亿,今年净增超过900万,其中5G套餐用户2.87亿,今年净增1927万。
据“广东信息通信业”微信公众号,针对6月8日下午广东电信突发网络中断故障,8日晚,广东省通信管理局召集广东电信、广东移动、广东联通、广东广电、广东铁塔相关负责人召开网络运行安全紧急调度会。广东电信通报称,在工信部和中国电信(601728)集团公司的远程指挥下,广东省通信管理局现场指挥,广东电信一线处置,通过紧急采取重启链路等措施,全力进行故障抢修。截至6月8日17时50分,广东电信网络运行恢复正常。局党组书记、局长蔡立志强调,电信网络是重要信息基础设施,关系国计民生,与社会生活和生产经营息息相关,全行业要高度重视电信网络运行安全。广东电信要深入查明原因,做好后续处置,加强网络运行保障。
- 2023-05-24 微软一个代码拼写错误引发微软 Azure 故障,17 个生产级数据库被删
https://www.oschina.net/news/244118/microsoft-azure-outage-brazil
事件背景起源于,Azure DevOps 工程师有时需要对生产数据库的快照进行保存,以调查报告的问题或测试性能改进。为了确保这些快照数据库得到清理,会有一个专门的后台每天运行,系统会在设定的时间段后删除旧快照。
在 Sprint 222 期间,Azure DevOps 工程师升级了代码库,将已弃用的 Microsoft.Azure.Managment.* 包替换为受支持的 Azure.ResourceManager.* NuGet 包。此举连带了大量的 pull request 变更请求,以寻求将旧包中的 API 调用替换为新包中的 API 调用。而其中就隐藏了有关快照删除作业中的一个拼写错误,它将删除 Azure SQL 数据库的调用换成了删除托管数据库的 Azure SQL Server 的调用。
Eric 称,运行此代码的条件很少见,因此测试机制没有很好地覆盖。
- 2023-03-29 唯品会南沙机房冷冻系统故障造成宕机
后续唯品会对此次事件严肃处理,对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职作相应处理。
《关于329机房宕机故障处理公告》【唯品会通-[2023]年-[019]号】显示,2023年3月29日(00:14-12:01)),南沙IDC冷冻系统故障导致机房设备温度快速升高宕机,造成线上商城停止服务。此次南沙机房重大故障影响时间持续12个小时,导致公司业绩损失超亿元,影响客户达800多万,公司将此次故障判定为P0级故障。
有业内人士表示,P0属于最高级别事故,比如崩溃、页面无法访问、主流程不通、主功能未实现,或在影响面上影响很大(即使Bug本身不严重)。值得注意的是,此次机房事故影响的不仅唯品会一家,微信、QQ等腾讯旗下社交软件出现功能异常,包括微信语音对话、朋友圈、微信支付,以及QQ文件传输、QQ空间和QQ邮箱在内的多个功能无法使用。事后腾讯也定义为一级事故,对大量相关领导做出了处罚。
- 2023-03-29 广州电信冷却机房故障导致凌晨腾讯微信+QQ 一级事故
2023 年 3 月 29 日凌晨,腾讯旗下的微信和 QQ 等业务曾出现崩溃状况,包括微信语音对话、朋友圈、微信支付,以及 QQ 文件传输、QQ 空间和 QQ 邮箱在内的多个功能无法使用。
直到 29 日早间,腾讯微信团队才回应表示,经工程师抢修,系统正在逐步恢复。
本次事故由广州电信机房冷却系统故障导致,腾讯将它定义为公司一级事故,并对大量相关领导做出了处罚。
- 2023-03-05 20点20分 B站哔哩哔哩 崩亏
https://www.oschina.net/news/231236
2023 年 3 月 5 日晚 20:20 左右,许多网友表示在使用 B 站时,手机和电脑端都无法访问视频详情页,且手机端无法查看收藏夹与历史记录。还有网友表示,首页能够正常加载,但全部是繁体字。
8 月 4 日晚间,距离上次事故 5 个月后,又有许多网友反馈 B 站图片(视频封面)无法加载、视频无法打开、视频一直在缓冲。
B 站上一次大规模崩溃是 2021 年 7 月 13 日,被成为「713 事故」,曾被反复拉出来鞭尸。
2021 年 7 月 13 日 22:52,SRE 收到大量服务和域名的接入层不可用报警,客服侧开始收到大量用户反馈 B 站无法使用,同时内部同学也反馈 B 站无法打开,甚至 APP 首页也无法打开。
基于报警内容,SRE 第一时间怀疑机房、网络、四层 LB、七层 SLB 等基础设施出现问题。
- 2023年1月11日 美国民航系统瘫痪
2023年1月11日,美国民航系统于当地时间周三早间瘫痪,导致当日9时全美所有航班禁飞,超过4000架次国内国际航班延误,据 FlightAware 数据显示,截至美东时间8时50分,全美约698架次航班取消。
这次故障可能源于飞行任务通知系统的一个文件损坏,而在紧急情况下使用的备份系统也发现了损坏文件,美国联邦航空管理局被迫重启系统,导致航班大面积延误或取消。
- 2022-10-27 马斯克收购推特,2023 大规模崩溃6次
马斯克接手推特后,2023 年才过去两个多月就出现了 6 次大规模崩溃:
- 1 月 23 日,Android 用户无法加载新推文或发布新推文
- 2 月 8 日,用户发现无法转发和发送推文,因为被系统提示 “超过了每天发送的条数限制”
- 2 月 15 日,推文停止加载
- 2 月 18 日,Timeline 无法加载,回复消失
- 3 月 1 日,Timeline 和 “为你推荐” 再度停止运行
- 3 月 6 日,无法访问图片和链接
-
今年 2 月初,推特宣布不再免费提供 API 给用户(此举被认为是打压第三方推特客户端)。为此,它们面向开发者构建了一个新的付费 API。但由于马斯克的大刀阔斧裁员,最后只有一名负责网站可靠性的工程师参与了该项目。据一名现任员工称,这名工程师周一进行了一次 “错误的配置更改”,并 “破坏了整个 Twitter API”。
对于此次事故,马斯克在推特上回复称是一个细小的 API 改动导致了巨大的影响。这也说明推特的代码非常脆弱,需要彻底的重构。
不过员工则表示,推特背负着许多技术债,如果现在就要彻底重构,那么整个推特都会崩溃。
- 2022年3月和5月 招商证券三个月崩2次
- 2021年10月5日 Facebook史上最严重宕机长达7小时,市值蒸发数百亿
2021年10月5日,Facebook、Messenger、Instagram和WhatsApp等Facebook旗下应用均出现故障。
声明中称:“据我们工程团队的了解,协调数据中心之间网络流量的主干路由器的配置变化导致了通信中断,由此对我们数据中心的通信方式产生了连带影响,使我们的服务陷入停顿。”
- 2021年3月份 欧洲云计算巨头OVH数据中心大火
2021年3月份,欧洲云计算巨头OVH位于法国斯特拉斯堡的数据中心发生严重火灾,该区域总共有 4 个数据中心,其中一个数据中心被完全烧毁。大火6个小时才被扑灭。
据了解,此次多达360万个网站下线。受到此次大火影响的客户包括欧洲航天局的数据与信息访问服务ONDA项目,此项目负责为用户托管地理空间数据并在云端构建应用程序。Rust旗下的游戏工作室Facepunch Studios证实,有25台服务器被烧毁,他们的数据已在这场大火中全部丢失。即使数据中心重新上线后,也无法恢复任何数据。
- 2020年9月23日 特斯拉系统遭全球性宕机
从美东时间9月23日11点开始,特斯拉车主便无法通过手机App连接到汽车上。同样的问题也发生在特斯拉的能源产品上,特斯拉太阳能和Powerwall储能电池用户无法监控他们的系统。

有用户在宕机追踪网站Down Detetor上表示,特斯拉App在iPhone上显示已经“冻结”,卸载、重新下载了后App则显示“出现错误”。受到影响的车主大部分来自美国,英国、德国、俄罗斯等欧洲国家的车主也报告了类似的问题,一些中国车主也反映了特斯拉App手机钥匙断开连接的问题。
有网友在推特求救称,自己在一个沙漠的超级充电桩,但被锁在Model 3车外了,特斯拉App无法连接到车上,已经拨打紧急道路救援电话快两小时了。
这并非特斯拉第一次出现全系统的宕机。早在2018年4月21日,从下午开始一直到次日早上,众多特斯拉车主经历了长时间的App宕机。当时,特斯拉承认出现了问题并表示当日晚间已经修复,但许多车主在次日早上仍在经历同样的问题。而2017年3月7日,特斯拉的APP和API停机几乎长达24小时。
案例问题2:充电桩物联卡流量消耗超4GB/天,进而导致无法充电。原因:异常日志log死循环打印消耗流量导致。
- 2018年11月9日 百度宕机系运营商DNS问题
2018年11月9日,百度网站疑似崩溃,移动端和网页端均无法打开。对此百度方面回应称,系运营商DNS问题,影响北京联通部分用户。
- 2013年6月 斯诺登曝光棱镜门
2013年6月,前中情局(CIA)职员爱德华·斯诺登将两份绝密资料交给英国《卫报》和美国《华盛顿邮报》,并告之媒体何时发表。
- 2011年12月 CSDN 600w数据库拖库事件
https://baike.baidu.com/item/%E5%AF%86%E7%A0%81%E5%A4%96%E6%B3%84%E9%97%A8/4976608#1
2011年12月,CSDN的安全系统遭到黑客攻击,600万用户的登录名、密码及邮箱遭到泄漏。随后,CSDN密码外泄门持续发酵,天涯、世纪佳缘等网站相继被曝用户数据遭泄密。天涯网于12月25日发布致歉信,称天涯4000万用户隐私遭到黑客泄露。此次失窃的只是密码集,用户只要及时修改密码即可避免隐私失窃,因此不用恐慌。但用户修改密码只是“治标”,网站改变数据存放策略才是“治本”。
- 插曲1:非诚勿扰, 首播时间2010年1月15日 ,自各种数据库被爆,可以首先核对谁是海王。
- 插曲2:20111111, 当时的SN用户数有5千万。
- 2007年 美国棱镜门启动(PRISM)
- 微软、雅虎、谷歌、Facebook、PalTalk、YouTube、Skype、AOL、苹果 9家国际网络巨头参与。
end