云计算之路-迁入阿里云后：20130314云服务器故障经过

首先向大家致歉，这次云服务器故障发现于17:30左右，18:30左右恢复正常，给大家带来了麻烦，请大家谅解！

故障的原因是云服务器所在的集群负载过高，磁盘写入性能急剧下降，造成很多数据库写入操作超时。后来恢复正常的解决方法是将云服务器迁移至另一个集群。

下面是故障发生的主要经过：

今天上午9:15左右一位园友通过邮件反馈在访问园子时遇到502 Bad Gateway错误，见下图：

502 Bad Gateway

这是由阿里云负载均衡SLB返回的错误，Tengine是由阿里巴巴开发的开源Web服务器。我们猜测阿里云提供的负载均衡服务可能是通过Tengine反向代理实现的。

这个错误页面表示SLB检测到负载均衡中的云服务器返回了无效的响应，比如500系列错误。

我们将这个情况通过工单反馈给了阿里云，得到的处理反馈是继续观察，可能是这位用户的网络线路的临时问题导致的。

由于我们在这个时间段没遇到这个问题，也没有其他用户反馈这个问题，我们也认可了继续观察的处理方式。

（根据我们后来的分析，出现502 Bad Gateway错误可能是集群出现了瞬时负载高的情况）

下午17:20左右，我们自己也遇到了502 Bad Gateway错误，持续了大约1-2分钟。见下图：

出问题期间，我们赶紧登录到两台云服务器查看情况，发现IIS并发连接数增长至原来的30多倍，而Bytes Send/sec为0，而且两台云服务器都是同样的情况。我们当时推断，这两台云服务器本身应该没有问题，问题可能出在它们与数据库服务器之间的网络通信。我们继续将这个情况通过工单反馈给阿里云。

刚把工单填好，我们就接到园友的电话反馈说博客后台不能发布文章，我们一测试，果然不能发布，报数据库超时错误，见下图：

但打开现有的文章速度很快，也就是说读正常，写有问题。赶紧登录数据库服务器通过性能监视器查看磁盘IO情况，果然磁盘写入性能有问题，见下图：

Avg. Disk Write Queue Length超过1就说明有问题了，现在平均已经到了4~5。进入阿里云网站上的管理控制台一看，磁盘IO问题就更明显了，见下图：

继续向阿里云反馈情况，得到的反馈是这台云服务器IOPS太高了，见下图：

于是，阿里云工作人员将这台云服务器迁移至另一个集群，问题立刻解决。

posted @ 2013-03-14 23:53 博客园团队阅读(8036) 评论(43) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 2分钟学会 DeepSeek API，竟然比官方更好用！
· .NET 使用 DeepSeek R1 开发智能 AI 客户端
· autohue.js：让你的图片和背景融为一体，绝了！
· 10亿数据，如何做迁移？
· 推荐几款开源且免费的 .NET MAUI 组件库

历史上的今天：
2011-03-14 上周热点回顾（3.7-3.13）

公告

昵称：博客园团队
园龄： 16年7个月
粉丝： 9208
关注： 100

+加关注

2013年3月

日

一

二

三

四

五

六

云计算之路-迁入阿里云后：20130314云服务器故障经过

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

合作伙伴

阅读排行榜

评论排行榜

推荐排行榜

最新评论