Prometheus监控的4个黄金指标及示例

Prometheus的黄金指标通常指的是在监控和度量系统性能时，关注的四个核心指标：延迟（Latency）、流量（Throughput）、错误（Errors）和饱和度（Saturation）。下面我将为你解释这些指标以及对应的PromQL（Prometheus Query Language）写法。

延迟（Latency）

延迟是服务请求或操作所需的时间。例如，HTTP请求的平均响应时间。

PromQL写法示例：
```
histogram_quantile(0.95, sum(rate({job="my-service"}[5m]) by (le)))
```
这个查询假设你有一个名为histogram_quantile的直方图指标，它记录了延迟分布。这个查询将计算过去5分钟内95%的请求延迟。
流量（Throughput）

流量是系统在给定时间内处理的事务数量。例如，每秒处理的HTTP请求数。

PromQL写法示例：
```
rate({job="my-service"}[1m])
```
这个查询将计算过去1分钟内my-service作业的HTTP请求率。
错误（Errors）

错误是失败的服务请求或操作的数量。例如，返回HTTP 5xx状态码的请求。

PromQL写法示例：
```
increase(http_requests_total{code=~"5.."}[1m])
```
这个查询将计算过去1分钟内HTTP响应码以5开头的请求数量（即错误请求）的增长量。
饱和度（Saturation）

饱和度是指系统资源的利用情况，如CPU、内存、磁盘I/O等的使用率。

PromQL写法示例（以CPU为例）：
```
(1 - avg(irate(node_cpu_seconds_total{mode="idle"}[5m]))) * 100
```
这个查询将计算过去5分钟内CPU的平均非空闲时间（即饱和度），并将其转换为百分比。

请注意，上面的PromQL查询示例是基于假设的指标名和标签集。在实际使用中，你需要根据你的Prometheus设置和指标命名约定来调整这些查询。同时，确保你的Prometheus实例已经收集了相关的指标数据。

posted on 2024-04-30 23:45 dashery 阅读(353) 评论(0) 编辑收藏举报

刷新页面返回顶部

ydswin