Prometheus监控的4个黄金指标及示例
Prometheus的黄金指标通常指的是在监控和度量系统性能时,关注的四个核心指标:延迟(Latency)、流量(Throughput)、错误(Errors)和饱和度(Saturation)。下面我将为你解释这些指标以及对应的PromQL(Prometheus Query Language)写法。
-
延迟(Latency)
延迟是服务请求或操作所需的时间。例如,HTTP请求的平均响应时间。
PromQL写法示例:
histogram_quantile(0.95, sum(rate({job="my-service"}[5m]) by (le)))
这个查询假设你有一个名为
histogram_quantile
的直方图指标,它记录了延迟分布。这个查询将计算过去5分钟内95%的请求延迟。 -
流量(Throughput)
流量是系统在给定时间内处理的事务数量。例如,每秒处理的HTTP请求数。
PromQL写法示例:
rate({job="my-service"}[1m])
这个查询将计算过去1分钟内
my-service
作业的HTTP请求率。 -
错误(Errors)
错误是失败的服务请求或操作的数量。例如,返回HTTP 5xx状态码的请求。
PromQL写法示例:
increase(http_requests_total{code=~"5.."}[1m])
这个查询将计算过去1分钟内HTTP响应码以5开头的请求数量(即错误请求)的增长量。
-
饱和度(Saturation)
饱和度是指系统资源的利用情况,如CPU、内存、磁盘I/O等的使用率。
PromQL写法示例(以CPU为例):
(1 - avg(irate(node_cpu_seconds_total{mode="idle"}[5m]))) * 100
这个查询将计算过去5分钟内CPU的平均非空闲时间(即饱和度),并将其转换为百分比。
请注意,上面的PromQL查询示例是基于假设的指标名和标签集。在实际使用中,你需要根据你的Prometheus设置和指标命名约定来调整这些查询。同时,确保你的Prometheus实例已经收集了相关的指标数据。
本文来自博客园,作者:dashery,转载请注明原文链接:https://www.cnblogs.com/ydswin/p/18168904