当我们设计复杂系统时,生产环境系统的可观察性是必须的,期望通过观察告诉我们什么时候,哪里出现了问题。
- 平时了解服务运行状况。
- 异常时,可发现服务故障,并定位故障原因。
- 事后,对异常点做分析,看是否在高峰期发生,或者持续更久,是否会出事故,如何解决。
运维黄金指标
观察那些指标,按照《SRE:Google运维解密》中描述的, 监控的四个黄金指标如后: 延迟、流量、错误、饱和度。
四类运维监控指标的监控项
这四类监控指标,在具体的业务和基础设施、中间件场景,要监控的项各有不同:
基础设施 | 业务监控 | |
---|---|---|
错误类 |
|
|
延迟类 |
|
|
流量类 |
|
|
饱和度类 |
|
|
参看: 京东 运维监控的终极秘籍,盘它!
这些项的周同比、日环比、突增、历史峰值等都需要关注。在百度做AIOPS时,还有些相关算法经验。
- 流量类:流入系统的请求数量(百度是如何做智能流量异常检测)、泊松分布。
- 错误类: 还记得概率课本中的二项分布吗?在我们的网络判障中发挥了大作用!、二项分布 。
- 延迟类: 高斯核密度估计
- 饱和度 : Beta分布核密度
参看 百度的经验 3分钟了解黄金指标异常检测, PPT 百度智能异常检测实践 王博、 演讲:百度 AIOps 黄金指标异常检测技术实践
MECE
MECE是 Mutually Exclusive Collectively Exhaustive 的首字母简写。
四类黄金指标是否MECE?
这四类指标是否宏观的就完全穷尽了呢?
我们看下面的思维导图:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示
2010-07-17 Ubuntu 下Drupal的安装
2010-07-17 ubuntu apache2配置