随笔 - 934, 文章 - 0, 评论 - 249, 阅读 - 345万

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

分布式系统运维四个黄金指标是否MECE?

Posted on   蝈蝈俊  阅读(2151)  评论(0编辑  收藏  举报

当我们设计复杂系统时,生产环境系统的可观察性是必须的,期望通过观察告诉我们什么时候,哪里出现了问题。

  • 平时了解服务运行状况。
  • 异常时,可发现服务故障,并定位故障原因。
  • 事后,对异常点做分析,看是否在高峰期发生,或者持续更久,是否会出事故,如何解决。

运维黄金指标

观察那些指标,按照《SRE:Google运维解密》中描述的, 监控的四个黄金指标如后: 延迟、流量、错误、饱和度。

四类运维监控指标的监控项

这四类监控指标,在具体的业务和基础设施、中间件场景,要监控的项各有不同:

基础设施 业务监控
错误类
  • 宕机;
  • 磁盘(坏盘或文件系统错误);
  • 进程或端口挂掉;
  • 网络丢包;
  • 错误日志;
  • 业务状态码、错误码走势;
延迟类
  • IO等待;
  • 网络延迟;
  • 接口、服务的平均耗时、TP90、TP99、TP999等;
  • DB、缓存的慢查询;
流量类
  • 网络和磁盘IO;
  • 服务层面的QPS、PV和UV;
  • 各状态业务订单TPM;
  • 针对音频流媒体系统来说,这个指标可能是网络I/O速率,或者并发会话数量;
  • 针对键值对存储系统来说,指标可能是每秒交易数量,或每秒的读取操作数量;
饱和度类
  • 系统资源利用率:CPU、内存、磁盘、网络等;
  • 饱和度:等待线程数,队列积压长度;
  • 该服务是否可以正常处理两倍的流量,是否可以应对10%的额外流量,或者甚至应对当前更少的流量?
  • 预测:看起来数据库会在4个小时内填满硬盘;

参看: 京东 运维监控的终极秘籍,盘它!

这些项的周同比、日环比、突增、历史峰值等都需要关注。在百度做AIOPS时,还有些相关算法经验。

参看 百度的经验 3分钟了解黄金指标异常检测PPT 百度智能异常检测实践 王博演讲:百度 AIOps 黄金指标异常检测技术实践

MECE

MECE是 Mutually Exclusive Collectively Exhaustive 的首字母简写。

四类黄金指标是否MECE?

这四类指标是否宏观的就完全穷尽了呢?
我们看下面的思维导图:

编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示
历史上的今天:
2010-07-17 Ubuntu 下Drupal的安装
2010-07-17 ubuntu apache2配置
点击右上角即可分享
微信分享提示