数据库生态圈(RDB & NoSQL & Bigdata)——专注于关系库优化(Oracle & Mysql & Postgresql & SQL Server )

https://www.cnblogs.com/lhdz_bj
http://blog.itpub.net/8484829
https://blog.csdn.net/tuning_optmization
https://www.zhihu.com/people/lhdz_bj

导航

夜间排障某省某电信公司后台数据库故障

续前篇文章,定位了该省某电信公司服务器问题所在,后来经过现场人员排查,原因更加明朗了:安全加固期间建了表和触发器,因节前要迎接检查,所以一直没敢动,节刚过,现场人员就开始动手了,结果,现场人员按照提前的预案操作,怎么也搞不掉两个触发和那个表,一直等待,最后报错,由此可见这几个家伙对系统的影响之大,后来没办法,只能申请夜间down掉所有应用,申请通过后,我的厄运就来了,公司安排我和另外一个年轻的DBA远程保障,晚上9点后动手。唉。。。,我是实在不愿意这么晚动,因为万一动出了问题,就不知道搞到啥时候了,无线资费卡又到期,上不了无线了,想了想,下班后直奔中关村,还比较顺利,买了无线资费卡,然后回到公司,这下可以踏踏实实回家了。不过,遗憾的是,耽误了一个老哥的饭局,这老哥已经约了我好几次了,结果都是因为我的原因,没能成行,很不好意思,和他说好,下次我约他,工作的事情,没办法,必须认真对待。

回到家已经八点多了,通过无线上线,匆匆的做饭,一边和一个上海的哥们聊着,那也是个牛人,只是为人很低调,所以业界少有人知。一边吃饭,一边聊,看看马上到9点了,我担心现场的人员等我,就和现场打了招呼:兄弟们,我在线上,动手吧,从容些。那边也回应:好,有你在,我们就放心多了。那边开始停应用,停监听,停数据库。。。,期间,有点麻烦,就是处理那个veritas的东西,因为那边我从来没去过,也没接触过,架构有点搞不清楚,好在现场那哥们也不是个新手,三下五除二搞定,开始启动,启动成功,开始搞掉触发和表,命令敲下去,有点出乎意料,居然半天没反应,那边哥们有点毛了,赶紧问我:怎么回事?还不行?,我也有点发毛,但镇定的告诉他:需要时间,再等等,然后给他发了个查等待的语句,他很快返回了结果,enqueue:TX,library cache pin等待,显然有事务,不知道什么事务,我这还没发出下一个语句,结果,那边欢快的返回了结果,第一个触发搞掉,接着是第二个和表都被端掉,这就好了,悬着的心终于落地了,接着交待了调整几个参数的方法和步骤,那边很快就明白了,今天很累,今天被另一个省电信公司的项目服务器折磨了一天,已经精疲力尽,看看表已经要12点了,有点坚持不住了,就和那边现场的哥们说:那我先撤了?那哥们显然有点不放心,犹豫了半天,还是说:那你先撤吧,和现场其他几个哥们打完招呼,下线收拾睡觉了。

第二天上班,还是按照习惯打开工作QQ和邮箱,QQ上居然有昨晚现场的留言:还在吗?这让我有点心惊,难道最后那几步还出了问题,不会的啊,我回了信息,结果没回音,忐忑不安。邮箱里有一封另外一个省电信公司同事给我发来的邮件,这是我昨晚交代他给我采的AWR,打开看后,大概晚9点,负载到了高峰,但系统各方面比昨天下午调整前好了很多,虽然IO依然是瓶颈。继续等,顺便看着其他几个AWR。。。

到了11点,现场那边终于有了回音,我赶紧问:昨晚怎么了?出事了?那边说:后来起应用有点问题,我们搞到凌晨三点,不过还好,最后搞定了。那边说,搞掉后,现在系统负载非常平稳,应用曲线经有关人员验证不再丢点,非常好。显然,现场那哥们很恼火,说要投诉相关人员,呵呵。。。

负载确实下降了不少,原来平时idle就大概10-20%,负载高峰有时达到0%,搞掉触发和表后升至70-80%,性能非常平稳,算是大获全胜,这次诊断到排障用时差不多一个多礼拜,因为中间隔着节日,放假三天,后来让现场人员采了信息,看后,非常不错,给领导和相关人员回了排障报告,这件事算是告一段落,终于可以放松下神经,迎接下一场战争。。。

posted on 2011-04-09 11:41  lhdz_bj  阅读(259)  评论(0编辑  收藏  举报