04. Prometheus - 数据类型

指标(Metrics)

Prometheus 会将所有采集到的样本数据以 时间序列(time-series)的方式保存在内存数据库中,并且定时保存到硬盘上。

时间序列按照时间戳和值的序列顺序存放,每条时间序列通过 指标名称(metrics name)和一组 标签集(labelset)命名。


在时间序列中的每一个点称为一个 样本(sample),样本由以下三部分组成:

  • 指标(metric):指标名称和描述当前样本特征的标签集。
  • 时间戳(timestamp):一个精确到毫秒的时间戳。
  • 样本值(value): 一个 float64 的浮点型数据表示当前样本的值。

一个规范的指标数据一般包含以下三个部分:

  • # HELP,说明该指标的用途。
  • # TYPE,说明该指标的数据类型。
  • 具体采集的指标。

比如以下数据示例:

# HELP node_cpu_seconds_total Seconds the CPUs spent in each mode.
# TYPE node_cpu_seconds_total counter
node_cpu_seconds_total{cpu="0",mode="idle"} 26855.45

其中具体的指标格式如下:

<指标名称>{<标签名称>=<标签值>, ...} 数据

它的具体含义如下:

  • 指标名称
    • 反映了被监控样本的含义。
    • 命名符合正则表达式 [a-zA-Z_:][a-zA-Z0-9_:]*
  • 标签
    • 大括号中的标签反映了当前样本的特征维度,用于对样本数据进行过滤,聚合等。
    • 命名符合正则表达式 [a-zA-Z_][a-zA-Z0-9_]*
    • __ 作为前缀的标签,是系统保留的关键字,只能在系统内部使用。
    • 标签的值则可以包含任何 Unicode 编码的字符。
  • 数据
    • 采集到的具体值。

在 Prometheus 的底层实现中,指标名称实际以 __name__=<指标名称> 的形式保存的。

因此以下两种方式均表示的同一条时间序列:

api_http_requests_total{method="POST", handler="/messages"}

等同于:

{__name__="api_http_requests_total",method="POST", handler="/messages"}

指标数据类型

Exporter 采集到的各种指标的是存在差异的,比如有些指标随变化而变化,有些指标可能无限增大。为了区分指标的差异,Prometheus 提供了 4 中指标类型可供选择:

  • counter:计数器
  • gauge:仪表盘
  • histogram:直方图
  • summary:摘要
    这些类型一般在 Exporter 提供的 /metrics 接口的 TYPE 行有展示。

Counter

Counter 属于只增不减的计数器,除非系统重置。

常见的 Counter 类型的指标一般以 _total 结尾,如:prometheus_http_requests_total(请求总数)。该类型常被用于计算速率的变化,比如:


  1. 通过 rate 函数获取 HTTP 请求增长率:
rate(prometheus_http_requests_total[5m])

  1. 查询系统访问前 10 的 HTTP 地址:
topk(10, http_requests_total)

Gauge

Gauge 指标主要反应系统当前状态,数据可增可减,常见的指标有:node_memory_MemFree_bytes(空闲内存)

可以直接通过指标查看系统当前运行状况,也可以使用内置函数计算一段时间的数据变化情况,比如使用线性回归预测磁盘在 12 小时后的剩余情况:

predict_linear(node_filesystem_free_bytes{job="node-exporter"}[1h] , 12 * 3600)

Histogram / Summary

Histogram 和 Summary 主用用于统计和分析样本的分布情况。

在大多数情况下人们都倾向于使用某些量化指标的平均值,如 CPU 平均使用率、页面平均响应时间等。这种方式存在一个问题,以 API 调用平均响应时间为例:如果大多数 API 请求都维持在 100ms 的响应时间范围内,而个别请求的响应时间需要 5s,那么就会导致某些页面的响应时间落到中位数的情况,而这种现象被称为 长尾问题

为了区分是平均慢还是长尾慢,最简单的方式就是按照请求延迟的范围进行分组。例如,统计延迟在 0-10ms 之间的请求数有多少,10-20ms 之间的请求数又有多少。通过这种方式可以快速分析系统慢的原因。

Histogram 和 Summary 都是为了能够解决这样问题的存在,通过 Histogram 和 Summary 类型的监控指标可以快速了解监控样本的分布情况。


Histogram 示例:prometheus_tsdb_compaction_chunk_range_seconds_bucket

# HELP prometheus_tsdb_compaction_chunk_range_seconds Final time range of chunks on their first compaction
# TYPE prometheus_tsdb_compaction_chunk_range_seconds histogram
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="100"} 0
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="400"} 0
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="1600"} 0
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="6400"} 0
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="25600"} 0
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="102400"} 0
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="409600"} 296
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="1.6384e+06"} 2572
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="6.5536e+06"} 67322
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="2.62144e+07"} 67322
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="+Inf"} 67322
prometheus_tsdb_compaction_chunk_range_seconds_sum 1.22250920075e+11
prometheus_tsdb_compaction_chunk_range_seconds_count 67322

Summary 示例:prometheus_tsdb_wal_fsync_duration_seconds

# HELP prometheus_tsdb_wal_fsync_duration_seconds Duration of WAL fsync.
# TYPE prometheus_tsdb_wal_fsync_duration_seconds summary
prometheus_tsdb_wal_fsync_duration_seconds{quantile="0.5"} 0.012352463
prometheus_tsdb_wal_fsync_duration_seconds{quantile="0.9"} 0.014458005
prometheus_tsdb_wal_fsync_duration_seconds{quantile="0.99"} 0.017316173
prometheus_tsdb_wal_fsync_duration_seconds_sum 2.888716127000002
prometheus_tsdb_wal_fsync_duration_seconds_count 216

Histogram 和 Summary 的异同:

  • 相同点

    • 两者都会反应指标记录总数 count 和值 sum。
  • 不同点

    • Histogram 直接反应在不同区间的个数,需要使用 histogram_quantile() 函数才能计算出其值的分位数。
    • Histogram 计算在服务端,Summary 计算在客户端。

因此,Summary 可以减少服务端的压力,Histogram 的值可能更具体。

posted @ 2022-08-21 00:16  不知名换皮工程师  阅读(365)  评论(0编辑  收藏  举报