导航

分布式系统运维四个黄金指标是否MECE?

Posted on 2020-07-17 11:08  蝈蝈俊  阅读(2128)  评论(0编辑  收藏  举报

当我们设计复杂系统时,生产环境系统的可观察性是必须的,期望通过观察告诉我们什么时候,哪里出现了问题。

  • 平时了解服务运行状况。
  • 异常时,可发现服务故障,并定位故障原因。
  • 事后,对异常点做分析,看是否在高峰期发生,或者持续更久,是否会出事故,如何解决。

运维黄金指标

观察那些指标,按照《SRE:Google运维解密》中描述的, 监控的四个黄金指标如后: 延迟、流量、错误、饱和度。

四类运维监控指标的监控项

这四类监控指标,在具体的业务和基础设施、中间件场景,要监控的项各有不同:

基础设施 业务监控
错误类
  • 宕机;
  • 磁盘(坏盘或文件系统错误);
  • 进程或端口挂掉;
  • 网络丢包;
  • 错误日志;
  • 业务状态码、错误码走势;
延迟类
  • IO等待;
  • 网络延迟;
  • 接口、服务的平均耗时、TP90、TP99、TP999等;
  • DB、缓存的慢查询;
流量类
  • 网络和磁盘IO;
  • 服务层面的QPS、PV和UV;
  • 各状态业务订单TPM;
  • 针对音频流媒体系统来说,这个指标可能是网络I/O速率,或者并发会话数量;
  • 针对键值对存储系统来说,指标可能是每秒交易数量,或每秒的读取操作数量;
饱和度类
  • 系统资源利用率:CPU、内存、磁盘、网络等;
  • 饱和度:等待线程数,队列积压长度;
  • 该服务是否可以正常处理两倍的流量,是否可以应对10%的额外流量,或者甚至应对当前更少的流量?
  • 预测:看起来数据库会在4个小时内填满硬盘;

参看: 京东 运维监控的终极秘籍,盘它!

这些项的周同比、日环比、突增、历史峰值等都需要关注。在百度做AIOPS时,还有些相关算法经验。

参看 百度的经验 3分钟了解黄金指标异常检测PPT 百度智能异常检测实践 王博演讲:百度 AIOps 黄金指标异常检测技术实践

MECE

MECE是 Mutually Exclusive Collectively Exhaustive 的首字母简写。

四类黄金指标是否MECE?

这四类指标是否宏观的就完全穷尽了呢?
我们看下面的思维导图: