Jmeter 压力测试笔记(1)--服务器迁移失败
近期,公司服务器因技术架构升级等原因需要迁移,在经过开发,运维DBA,测试多部门进行联合讨论后,制定出了迁移方案。迁移前也对APP应用进行了各种测试,并没有发现问题。
凌晨2点开始迁移,5点完成迁移。DBA开始执行脚本建立索引(坑)。
迁移完成后,测试组对App功能进行各种验证,修复了一些小小问题。 早上6点,大家都很高兴。然后大家开开心心回家睡觉去了。。 打车的打车,开车的开车,走路的也有 ^_^
PS: 服务器架构
用户--Internet--SLB(负载均衡)--nginx--后台------Redis---mysql
回家,冲凉。刚刚躺下,小孩还没起床~睡了半个小时。8点半。微信群里不断收到新消息,叮叮响个不停。眯着眼睛起来一看。服务器挂了。APP打不开了。群里炸锅了。
公司里另一班运维DBA开发紧急定位:
发现在9点11分,连接并发数达到最大,然后在9点12分时突然下跌。经过运维定位服务器重启了。
同时,非活跃连接数陡增,活跃连接数比例下降。服务器重启后,机器cpu立马被拉满。
DBA检查阿里云监控,发现所有读写分离都在主库上执行,读库没执行,导致主库扛不住,直接跑满,排队验证。16000的连接数占满。且不释放。
开发运维同事在10点20分重启服务器,重启服务器后,服务器瞬间被拉满,服务响应延迟,大量投诉达到客服部,客服部在客户面前瑟瑟发抖,在开发这边怒火冲天~~
公司boss也紧张起来,定下方案,如果不能解决,立马回切到旧服务器。并协助用户修复数据。
终于,在14点,服务器回切到旧环境。
大量用户数据等待被修复。
以及迁移失败问题待定位,准备下一轮迁移。
大家纷纷预计,这次绩效估计不及格。。。。。