阿里云11月12日官方故障报告来了
影响范围
- OSS、OTS、SLS、MNS 等产品的部分服务受到影响,大部分产品如 ECS、RDS、网络等运行不受影响。
- 云产品控制台、管控 API 等功能受到影响。
时间
2023年11月12日17:39~19.20,故障时间为 1 小时 41 分。
问题概况
2023 年 11月 12 日 17:39 起,阿里云云产品控制台访问及管控 API调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK)异常有关。工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。
处理过程
- 17:39:阿里云云产品控制台访问及管控 API 调用出现异常。
- 17:50:工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。
- 18:01:工程师定位到根因。
- 18:07:开始执行恢复措施,包括修订白名单版本、重启 AK 服务。
- 18:35:杭州等 Region 开始恢复正常。
- 19:20:绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。
原因
访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。
改进措施
- 增加 AK 服务白名单生成结果的校验及告警拦截能力。
- 增加 AK 服务白名单更新的灰度验证逻辑,提前发现异常。
- 增加 AK 服务白名单的快速恢复能力。
- 加强云产品侧的联动恢复能力。
下一步阿里云将在此次故障复盘和整改措施基础上,继续深入做好风险隐患排查工作,举一反三,梳理行程问题清单逐项整改。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
2022-11-16 还不懂Java线程池实现原理,看这一篇文章就够了