04. Prometheus - 数据类型
指标(Metrics)
Prometheus 会将所有采集到的样本数据以 时间序列
(time-series)的方式保存在内存数据库中,并且定时保存到硬盘上。
时间序列按照时间戳和值的序列顺序存放,每条时间序列通过 指标名称
(metrics name)和一组 标签集
(labelset)命名。
在时间序列中的每一个点称为一个 样本
(sample),样本由以下三部分组成:
- 指标(metric):指标名称和描述当前样本特征的标签集。
- 时间戳(timestamp):一个精确到毫秒的时间戳。
- 样本值(value): 一个 float64 的浮点型数据表示当前样本的值。
一个规范的指标数据一般包含以下三个部分:
# HELP
,说明该指标的用途。# TYPE
,说明该指标的数据类型。- 具体采集的指标。
比如以下数据示例:
# HELP node_cpu_seconds_total Seconds the CPUs spent in each mode.
# TYPE node_cpu_seconds_total counter
node_cpu_seconds_total{cpu="0",mode="idle"} 26855.45
其中具体的指标格式如下:
<指标名称>{<标签名称>=<标签值>, ...} 数据
它的具体含义如下:
指标名称
- 反映了被监控样本的含义。
- 命名符合正则表达式
[a-zA-Z_:][a-zA-Z0-9_:]*
。
标签
- 大括号中的标签反映了当前样本的特征维度,用于对样本数据进行过滤,聚合等。
- 命名符合正则表达式
[a-zA-Z_][a-zA-Z0-9_]*
。 - 以
__
作为前缀的标签,是系统保留的关键字,只能在系统内部使用。 - 标签的值则可以包含任何 Unicode 编码的字符。
数据
- 采集到的具体值。
在 Prometheus 的底层实现中,指标名称实际以
__name__=<指标名称>
的形式保存的。
因此以下两种方式均表示的同一条时间序列:
api_http_requests_total{method="POST", handler="/messages"}
等同于:
{__name__="api_http_requests_total",method="POST", handler="/messages"}
指标数据类型
Exporter 采集到的各种指标的是存在差异的,比如有些指标随变化而变化,有些指标可能无限增大。为了区分指标的差异,Prometheus 提供了 4 中指标类型可供选择:
counter
:计数器gauge
:仪表盘histogram
:直方图summary
:摘要
这些类型一般在 Exporter 提供的 /metrics 接口的 TYPE 行有展示。
Counter
Counter 属于只增不减的计数器,除非系统重置。
常见的 Counter 类型的指标一般以 _total 结尾,如:prometheus_http_requests_total(请求总数)。该类型常被用于计算速率的变化,比如:
- 通过 rate 函数获取 HTTP 请求增长率:
rate(prometheus_http_requests_total[5m])
- 查询系统访问前 10 的 HTTP 地址:
topk(10, http_requests_total)
Gauge
Gauge 指标主要反应系统当前状态,数据可增可减,常见的指标有:node_memory_MemFree_bytes(空闲内存)
可以直接通过指标查看系统当前运行状况,也可以使用内置函数计算一段时间的数据变化情况,比如使用线性回归预测磁盘在 12 小时后的剩余情况:
predict_linear(node_filesystem_free_bytes{job="node-exporter"}[1h] , 12 * 3600)
Histogram / Summary
Histogram 和 Summary 主用用于统计和分析样本的分布情况。
在大多数情况下人们都倾向于使用某些量化指标的平均值,如 CPU 平均使用率、页面平均响应时间等。这种方式存在一个问题,以 API 调用平均响应时间为例:如果大多数 API 请求都维持在 100ms 的响应时间范围内,而个别请求的响应时间需要 5s,那么就会导致某些页面的响应时间落到中位数的情况,而这种现象被称为 长尾问题
。
为了区分是平均慢还是长尾慢,最简单的方式就是按照请求延迟的范围进行分组。例如,统计延迟在 0-10ms 之间的请求数有多少,10-20ms 之间的请求数又有多少。通过这种方式可以快速分析系统慢的原因。
Histogram 和 Summary 都是为了能够解决这样问题的存在,通过 Histogram 和 Summary 类型的监控指标可以快速了解监控样本的分布情况。
Histogram 示例:prometheus_tsdb_compaction_chunk_range_seconds_bucket
# HELP prometheus_tsdb_compaction_chunk_range_seconds Final time range of chunks on their first compaction
# TYPE prometheus_tsdb_compaction_chunk_range_seconds histogram
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="100"} 0
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="400"} 0
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="1600"} 0
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="6400"} 0
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="25600"} 0
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="102400"} 0
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="409600"} 296
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="1.6384e+06"} 2572
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="6.5536e+06"} 67322
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="2.62144e+07"} 67322
prometheus_tsdb_compaction_chunk_range_seconds_bucket{le="+Inf"} 67322
prometheus_tsdb_compaction_chunk_range_seconds_sum 1.22250920075e+11
prometheus_tsdb_compaction_chunk_range_seconds_count 67322
Summary 示例:prometheus_tsdb_wal_fsync_duration_seconds
# HELP prometheus_tsdb_wal_fsync_duration_seconds Duration of WAL fsync.
# TYPE prometheus_tsdb_wal_fsync_duration_seconds summary
prometheus_tsdb_wal_fsync_duration_seconds{quantile="0.5"} 0.012352463
prometheus_tsdb_wal_fsync_duration_seconds{quantile="0.9"} 0.014458005
prometheus_tsdb_wal_fsync_duration_seconds{quantile="0.99"} 0.017316173
prometheus_tsdb_wal_fsync_duration_seconds_sum 2.888716127000002
prometheus_tsdb_wal_fsync_duration_seconds_count 216
Histogram 和 Summary 的异同:
-
相同点
- 两者都会反应指标记录总数 count 和值 sum。
-
不同点
- Histogram 直接反应在不同区间的个数,需要使用 histogram_quantile() 函数才能计算出其值的分位数。
- Histogram 计算在服务端,Summary 计算在客户端。
因此,Summary 可以减少服务端的压力,Histogram 的值可能更具体。