成为运维界的「福尔摩斯」,你还需要3个帮手!
夏洛克·福尔摩斯,一直以来柯南道尔笔下的福尔摩斯形象在人们的脑海中都栩栩如生。敏锐的观察力,缜密的推理思路,丰富的专业知识,一切扑朔迷离的刑事案件在他手中都能迎刃而解,一切的竞争对手在他面前都如此的黯然失色。他有一双能够看穿世界的眼睛,被他关注的人都好像身体上被安装了监控,所有的行动他都了如指掌。在福尔摩斯的领域中,任何的异动都掌握在他的手中,并且这些异动信息会第一时间到达他的手中。福尔摩斯教会了我们,善于使用工具,能够让工作事半功倍。
《血字的研究》一案中,一把直尺,一个放大镜等等都成为了破案的重要工具,一群野孩子提供的信息的效率远远高于警方所能提供的信息。再加上福尔摩斯全面的专业知识,最终将谜题解开。
如何利用简单实用的工具,再加上过硬的专业知识找到事实的真相呢?又如何成为运维界的福尔摩斯呢?运维的基本工作就是保障公司网站服务的可用性,服务器运行的稳定性。那么如何对网站可用性、对服务器的运行状态了如指掌?出现问题如何能够接收到精准的告警消息呢?
请 mark 下面三款工具:
Ct (Cloud Test) 主要是通过分布在全国各地的服务器对网站进行持续的监控,Ct 产品的价值在于网站管理员可以借此在终端用户或顾客发现问题之前发现问题,知道网站或 web 应用是否运行缓慢,甚至宕机。Ct 产品不涉及真实的网站流量,因此可以实现 7x24 小时的监控,或在正式发布 web 应用之前进行测试。通过 Ct 产品可以实时的了解网站在各个地域,运营商的性能表现,结合真实用户监控产品 Browser Insight,能深入了解应用的健康状况。
通过 Cloud Test,你可以:
-
单页面监控:分布全国的服务器对网页性能进行实时监控,提供网页可用性、响应时间、http 错误等具体信息,深入代码级了解错误详情,可用于监控网页、个人站点,实时监控网页性能。
-
Ping 监控:在运维人员的日常工作中,对物理服务器的监控十分重要。物理机的 CPU、内存、磁盘使用率,网卡流量,磁盘 IO 等都需要进行监控。通过 ICMP 协议的 ping 监控,可以判断物理服务器运行是否正常或者网站是否出现故障。网络不稳定或者服务器宕机, ping 就产生报警,让您在第一时间收到告警。这样大大提升了运维人员的工作效率。
-
API 监控:对于商务运算来说一个比较稳定的趋势在于对 API 日渐增长的依赖性,几乎每一个代码级交互过程都会调用 API 来收集数据或触发某些关键过程,这就带来一个问题,开发者怎么才能确定开发者的应用是由于开发者自己的问题还是由于第三方服务厂商的 API 问题,所以开发者需要API监控。
-
DNS 监控:监控 DNS 系统,防止网站 DNS 劫持(域名劫持)、域名过期或已被停止、域名 DNS 服务器未解析、域名解析记录为空或不正确等 DNS 服务器错误。
既然有了实时的网站可用性监控,那么对服务器的基础组件监控需求也是必不可少的。我推荐一些还在观望 Zabbix 和 Nagios 的初创团队,可以试一试 Cloud Insight。
Ci(Cloud Insight) 集监控、管理、协作、计算、可视化于一身,减少在系统监控上的人力和时间成本投入,让运维工作变得更加高效、简单。使用 Cloud Insight 操作简单,40s完成安装,再配置上数据库中间件监控即可,其它的就直接在 Web 上查看,操作。
通过 Cloud Insight,你可以:
- 关注服务器内存,流量,CPU 等基本性能指标,每天都可以检测服务器性能,哪天数据有巨幅变化那就要赶紧查查是哪出问题了。
- 高可视化,关注数据库增删减查操作,慢查询等条件,主从复制状态,将关注的数据制定一个自定义仪表盘,顺道再设置个报警,这样数据库有任何异常,都会第一时间得到通知,及时相应处理。
- 集群管理与可视化,如果有多台服务器,这几台用作 webserver,这几台用做 database,那几台做 DNS,设置不同的 tag ,通过拓补图分开聚合展示,分分钟总览集群全貌。
- 多人合作,对接简聊,BearyChat,瀑布等 ChatOps 工具,将操作事件流同步到多个即时通讯里面,汇集报警、探针启动和操作历史记录于一身。能够让运维人员、研发人员、管理人员,甚至运营人员都参与到 Cloud Insight 这个工具的使用中来,沟通与协作效率更高。
有了强大的监控工具还不够,完善的报警通知体系也是至关重要的。OneAlert 作为国内首家云告警平台,能够轻松集成 Ct,Ci 产品,提供更合理的告警方式(当然 zabbix,nagios,阿里云等监控工具都可以集成)。
通过 OneAlert ,你可以:
合理的通知体系:
-
不同的主机组告警消息发给特定的负责人,并且告警消息通过微信、短信、邮件、电话、App 的方式通知,通知必达。
-
不同类型的告警消息发到不同角色负责人手中,比如 MySQL 类型的告警消息我们可以选择发给公司的 DBA 同事,而网络相关的告警消息我们可以选择发给网络工程师等。
-
有效的告警升级机制能够保证告警不会被遗漏,告警在设置时间内不确认、不解决的时候,会升级到二线值班人员。
合适的时间选择合适的通知方式:
- 当告警消息来了,选择一个好的通知方式是至关重要的。比如白天工作时间,告警消息的推送只需要通过微信、邮件的方式。而晚上下班时间休息时间,告警消息推送可以选择短信和电话两种方式进行通知,灵活的通知方式能够达到事半功倍的效果。
健全的告警分析体系:
- 好的告警分析机制能够帮助管理者分析团队整体的工作情况,根据 MTTR 作为评判标准,通过告警分析能够分析出某一告警应用某段时间内处理情况。而且 OneAlert 的分析机制也可以根据应用、团队以及成员三个维度进行分析,让你真正认识你的工作团队。
从 Ct 对网站可用性的实时监控,再到 Ci 对服务器基础组件的实时监控,出现问题有 OneAlert 健全的报警机制,通知必达,网站服务有问题及时监控发现,告警消息多方式通知到位,服务器这点小事,你还怕什么?总有一款适合你。
本文系国内 ITOM 管理平台 OneAPM 工程师原创文章。我们致力于帮助企业用户提供全栈式的性能管理以及 IT 运维管理服务,通过一个探针就能够完成日志分析、安全防护、APM 基础组件监控、集成报警以及大数据分析等功能。想阅读更多技术文章,请访问 OneAPM 官方技术博客
本文转自 OneAPM 官方博客