分布式系统运维四个黄金指标是否MECE？

Posted on 2020-07-17 11:08 蝈蝈俊阅读(2128) 评论(0) 编辑收藏举报

当我们设计复杂系统时，生产环境系统的可观察性是必须的，期望通过观察告诉我们什么时候，哪里出现了问题。

运维黄金指标

观察那些指标，按照《SRE：Google运维解密》中描述的，监控的四个黄金指标如后：延迟、流量、错误、饱和度。

这四类监控指标，在具体的业务和基础设施、中间件场景，要监控的项各有不同：

	基础设施	业务监控
错误类	宕机；磁盘（坏盘或文件系统错误）；进程或端口挂掉；网络丢包；	错误日志; 业务状态码、错误码走势;
延迟类	IO等待；网络延迟；	接口、服务的平均耗时、TP90、TP99、TP999等； DB、缓存的慢查询；
流量类	网络和磁盘IO；	服务层面的QPS、PV和UV；各状态业务订单TPM；针对音频流媒体系统来说，这个指标可能是网络I/O速率，或者并发会话数量；针对键值对存储系统来说，指标可能是每秒交易数量，或每秒的读取操作数量；
饱和度类	系统资源利用率：CPU、内存、磁盘、网络等；饱和度：等待线程数，队列积压长度；	该服务是否可以正常处理两倍的流量，是否可以应对10%的额外流量，或者甚至应对当前更少的流量？预测：看起来数据库会在4个小时内填满硬盘；