云计算之路-阿里云上-寒流来袭:2014年12月23日21:45-23:15网站故障

1个多小时间的网站故障给大家带来很大的麻烦,在这里我们表示深深的歉意!希望大家能够谅解!

这两天上海的气温在回升,而杭州的云上却突然袭来一股寒流。

12月23日晚上,阿里云进行了一次RDS的功能发布,在发布中悄无声息地修改了我们的RDS数据库连接数限制,谁也不知道,然后。。。

21:45:52左右开始,日志中出现大量执行时间超过5秒的请求。

然后出现超过10秒、20秒。。。甚至超过100秒的请求。

21:46:50左右,开始出现数据库连接错误:

System.Data.SqlClient.SqlException (0x80131904): Timeout 时间已到。
在操作完成之前超时时间已过或服务器未响应。
尝试连接到 Principle 服务器时发生了此故障。
---> System.ComponentModel.Win32Exception (0x80004005): 等待的操作过时。

并继续出现大量执行时间超过5秒的请求。

接着出现下面的错误:

System.InvalidOperationException: 超时时间已到。
超时时间已到,但是尚未从池中获取连接。
出现这种情况可能是因为所有池连接均在使用,并且达到了最大池大小。

再接着就是下面的错误:

System.Web.HttpUnhandledException (0x80004005): 引发类型为“System.Web.HttpUnhandledException”的异常。 
---> System.Data.SqlClient.SqlException (0x80131904): 已成功与服务器建立连接,但是在登录前的握手期间发生错误。
(provider: SSL Provider, error: 0 - 等待的操作过时。)

然后网站就无法正常访问。

(上图中紫色的线条表示的是请求执行时间)

当我们发现问题后,立即向阿里云反馈,然后与阿里云工作人员一起排查问题。但是我们不知道这次RDS发布,阿里云参加排查问题的人也不知道。于是,紧张地做了1小时左右的无用功,直到知道了故障的真相——RDS功能发布时修改了我们的RDS最大连接数限制,而且这次发布事先没有任何通知。

我们不要这样的“被故障”,我们要的是无故障,希望2015年全年无故障!

posted @   博客园团队  阅读(5333)  评论(35编辑  收藏  举报
编辑推荐:
· .NET Core 托管堆内存泄露/CPU异常的常见思路
· PostgreSQL 和 SQL Server 在统计信息维护中的关键差异
· C++代码改造为UTF-8编码问题的总结
· DeepSeek 解答了困扰我五年的技术问题
· 为什么说在企业级应用开发中,后端往往是效率杀手?
阅读排行:
· 2分钟学会 DeepSeek API,竟然比官方更好用!
· .NET 使用 DeepSeek R1 开发智能 AI 客户端
· autohue.js:让你的图片和背景融为一体,绝了!
· 10亿数据,如何做迁移?
· 推荐几款开源且免费的 .NET MAUI 组件库
历史上的今天:
2012-12-24 上周热点回顾(12.17-12.23)
2009-12-24 jQuery 专题上线了
点击右上角即可分享
微信分享提示