告警分析:如何帮助运维团队快速做出最佳决策?

「路漫漫其修远兮,吾将上下而求索」,「转身」不见得华丽,但我必须「转身」,不要安逸于现在的运维状况。

如果你运维一线人员,是否会遇到以下情况:

  • 公司所有的服务器告警消息会塞满自己的整个邮箱,如果公司的运维团队有几个人到几十人不等,当你处理邮箱中的告警消息的时候,处理一半会发现问题已经解决了,这个现象很常见,会导致工作效率的下降。改善的方法有很多,比如团队内部多一些沟通,然而沟通的成本也是非常高的。解决问题应该从源头出发,治标不治本的方法还是应该适当采取。也许你在创业团队工作,团队中只有一个人,但是也希望你能读完本篇文章,等团队壮大之后也会有帮助!

  • 单一的告警通知方式会麻木运维同学的工作思维,一天 24 小时接收的都是邮件或者短信的告警通知。我们更希望白天工作时间使用邮件、微信、APP 等轻量级的通知方式,晚上休息时间使用短信、电话等偏重的通知方式。这样不仅白天能够提高工作效率,而且能够晚上好好休息,不用担心告警疏漏。如果能有排班通知,那么就真正能「睡个好觉」了。
    如果你是运维 Team Leader,是否会遇到以下情况:

如果你是团队的管理人员,是否会遇到以下情况:

  • 团队一直在解决故障,但对系统性能没有整体的把握;你对团队、成员的工作量,工作效率没有全面的了解。你肯定不希望这样管理你的团队,不希望团队重复解决某些事情,更不希望因为这些问题让团队士气低落,觉得工作没有干劲。

  • 团队一直在重复解决某一故障,但是却因为缺少一个好的分析工具,导致无用功重复执行。比如经常收到「127.0.0.1」服务器内存使用率超过90%,严重级别高’的告警消息,通过对告警消息分析,此告警消息在本月出现频率最高,此时是否能够根据此告警对服务器做出一些硬件上的调整来减少告警的噪声?

解决以上可能出现的问题,你需要:

  • 合适通知体系

  • 合理的通知方式

  • 健全的告警分析机制

合适的通知体系 ------- 你的锅你来背

根据不同的主机组把告警发给不同的一线成员,可有效解决告警分派的问题,并且能够使团队责任划分清晰。每个人负责一部分服务器,出现问题之后,告警消息只会通知自己,避免对其他同事的工作造成干扰。那如果这位同事遗漏了告警怎么办?告警消息不被团队的其他人知晓,解决时间会存在严重的问题。这时需要一个有效的升级机制,告警在设置时间内不确认、不解决的时候,会升级到二线值班人员,二线一般都是领导级别的了,如果告警真的升级了,那你就…………。所以在第一时间接收到告警消息,第一时间解决掉是非常关键的,这时我们就需要有多种通知方式,合理的通知方式。

合理的通知方式 ------- 对的时间遇上对的人

不要在错的时间遇上对的人。 当告警消息来了,选择一个好的通知方式是至关重要的。比如白天工作时间,告警消息的推送只需要通过微信、邮件的方式。而晚上下班时间休息时间,告警消息推送可以选择短信和电话两种方式进行通知,灵活的通知方式能够达到事半功倍的效果。告警通知很及时,那怎么衡量团队的工作效率、个人的工作效率呢?根据什么标准来衡量呢?这时有一个健全告警分析机制是很关键的。

健全的告警分析体系 ------- 真正认识你的团队

好的告警分析机制能够帮助管理者分析团队整体的工作情况,根据 MTTR 作为评判标准。通过告警分析能够分析出某一告警应用某段时间内处理情况。

告警分析:如何帮助运维团队快速做出最佳决策?

根据告警内容分析也是很有必要的,能够帮助团队管理者对资源进行适当的调整,工作重心的调整。

告警分析:如何帮助运维团队快速做出最佳决策?

当然对团队成员的工作进行分析也是非常有必要的,OneAlert 对成员处理告警的分析即将上线。

健全的告警分析是一个运维管理团队必须的,我们能够在其中发现很多的团队问题,然后进行适当的调整,把团队的整体 KPI 提高,士气提高!希望本篇文章能够对你有用。

OneAlert 是北京蓝海讯通科技有限公司旗下产品,中国首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性。想了解更多信息,请访问 OneAlert 官网
本文转自 OneAPM 官方博客

posted @ 2016-01-19 14:55  OneAPM官方技术博客  阅读(429)  评论(0编辑  收藏  举报
OneAPM - 端到端的应用性能管理云解决方案! | OneAPM博客