云计算之路-阿里云上-寒流来袭:2014年12月23日21:45-23:15网站故障

1个多小时间的网站故障给大家带来很大的麻烦,在这里我们表示深深的歉意!希望大家能够谅解!

这两天上海的气温在回升,而杭州的云上却突然袭来一股寒流。

12月23日晚上,阿里云进行了一次RDS的功能发布,在发布中悄无声息地修改了我们的RDS数据库连接数限制,谁也不知道,然后。。。

21:45:52左右开始,日志中出现大量执行时间超过5秒的请求。

然后出现超过10秒、20秒。。。甚至超过100秒的请求。

21:46:50左右,开始出现数据库连接错误:

System.Data.SqlClient.SqlException (0x80131904): Timeout 时间已到。
在操作完成之前超时时间已过或服务器未响应。
尝试连接到 Principle 服务器时发生了此故障。
---> System.ComponentModel.Win32Exception (0x80004005): 等待的操作过时。

并继续出现大量执行时间超过5秒的请求。

接着出现下面的错误:

System.InvalidOperationException: 超时时间已到。
超时时间已到,但是尚未从池中获取连接。
出现这种情况可能是因为所有池连接均在使用,并且达到了最大池大小。

再接着就是下面的错误:

System.Web.HttpUnhandledException (0x80004005): 引发类型为“System.Web.HttpUnhandledException”的异常。 
---> System.Data.SqlClient.SqlException (0x80131904): 已成功与服务器建立连接,但是在登录前的握手期间发生错误。
(provider: SSL Provider, error: 0 - 等待的操作过时。)

然后网站就无法正常访问。

(上图中紫色的线条表示的是请求执行时间)

当我们发现问题后,立即向阿里云反馈,然后与阿里云工作人员一起排查问题。但是我们不知道这次RDS发布,阿里云参加排查问题的人也不知道。于是,紧张地做了1小时左右的无用功,直到知道了故障的真相——RDS功能发布时修改了我们的RDS最大连接数限制,而且这次发布事先没有任何通知。

我们不要这样的“被故障”,我们要的是无故障,希望2015年全年无故障!

posted @ 2014-12-24 01:23  博客园团队  阅读(5331)  评论(35编辑  收藏  举报