3.Prometheus计算函数

1.Prometheus监控cpu构思
 2.函数rate()
3.函数irate()
4.函数rate()及irate()区别
 5.函数increase()
6.函数sum()
7.函数by
8.topk()
9.count()

1.Prometheus监控cpu构思

%Cpu(s): 2.2 us, 1.9 sy, 0.0 ni, 95.5 id, 0.0 wa, 0.0 hi, 0.3 si, 0.0 st

cpu的使用率= (所有非空闲状态的cpu时间总和)/(所有状态cpu的时间总和)

(1-((sum(increase(node_cpu_seconds_total{mode="idle"}[5m])) by (instance)) / (sum(increase(node_cpu_seconds_total[5m])) by (instance)))) * 100

(sum(increase(node_cpu_seconds_total{mode!="idle"}[5m])) by (instance) / sum(increase(node_cpu_seconds_total[5m])) by (instance) )* 100

2.函数rate()

rate()
rate函数，rate用来计算两个间隔时间内发生的变化率（一段时间内平均每秒的增量）。
专门用来搭配Counters类型的数据，rate(指标名{筛选条件}[时间间隔])

比如查看1分钟内非idle的cpu使用率

rate(node_cpu_seconds_total{mode!="idle"}[1m])

rate()举例：

1分钟内增加了 1000bytes （假设）
5分钟内增加了 5000bytes （假设）
会把1000bytes除以 1m60秒，=～16bytes/s 就是这样计算出在这1分钟内，平均每秒钟增加 16bytes
把5分钟内的增量除以 5m60s ，5分钟的增量假如是 5000 ，那么除以300 以后也还是约等于 =~ 16bytes/s

以上两种时间段的取法，都是假设成⼀种平均的取法，这是一种假设的理想状态，事实上生产环境网络数据接收量可不是这么平均的。有可能在第一分钟增加了 1000，到第二分钟就变成增加了2500….

所以 rate(1m) 这样的取值方法比起 rate(5m) ，因为它取的时间段短，所以任何某⼀瞬间的凸起或者降低在成图的时候会体现的更细致更敏感而rate(5m)把整个5分钟内的都⼀起平均了，那么当发生瞬时凸起的时候，会显得图平缓了⼀些（因为取的时间段长把波峰波谷都给平均消下去了）

3.函数irate()

irate取的是在指定时间范围内的最近两个数据点来算速率，而rate会取指定时间范围内所有数据点，算出一组速率，然后取平均值作为结果。

sum(irate(node_cpu_seconds_total{mode!="idle"}[1m])) by (instance)

4.函数rate()及irate()区别

irate适合快速变化的计数器（counter），而rate适合缓慢变化的计数器（counter）。
根据以上算法我们也可以理解，对于快速变化的计数器，如果使用rate，因为使用了平均值，很容易把峰值削平。除非我们把时间间隔设置得足够小，就能够减弱这种效应。

相同函数，截取不同时间的图形分析:

rate(node_network_receive_bytes_total[1m])

increase()
increase 函数在promethes中，是用来针对Counter 这种持续增长的数值，截取其中⼀段时间的增量（一段时间内的总增量）
increase(node_cpu_seconds_total[1m]) --> 这样就获取了 CPU总使用时间在1分钟内的增量
increase(v range-vector)函数是PromQL中提供的众多内置函数之一。其中参数v是一个区间向量，increase函数获取区间向量中的第一个后最后一个样本并返回其增长量。因此，可以通过以下表达式Counter类型指标的增长率：

指标node_cpu所获取到的样本数据却不同，它是一个持续增大的值，因为其反应的是CPU的累积使用时间，从理论上讲只要系统不关机，这个值是会无限变大的。

# HELP node_cpu Seconds the cpus spent in each mode.
# TYPE node_cpu counter
node_cpu{cpu="cpu0",mode="idle"} 362812.7890625

Counter类型的指标其工作方式和计数器一样，只增不减（除非系统发生重置）。常见的监控指标，如http_requests_total，node_cpu都是Counter类型的监控指标。

increase(node_cpu[2m]) / 120

这里通过node_cpu[2m]获取时间序列最近两分钟的所有样本，increase计算出最近两分钟的增长量，最后除以时间120秒得到node_cpu样本在最近两分钟的平均增长率。并且这个值也近似于主机节点最近两分钟内的平均CPU使用率。

6.sum统计数值总量

sum( )
比如上面得到各个指标的cpu使用率，如果我想计算总的cpu使用率怎么办？
sum( ) 就如其字⾯意思⼀样起到value 加合的作用 sum( increase(node_cpu_seconds_total[1m]) ) 外⾯套⽤⼀个sum 即可把所有核数值加合
问题1：所有机器的CPU 也全都加到⼀起了，变成服务器集群总CPU平均值了？

7.by ()聚合

by (instance) 这个函数可以把 sum加合到⼀起的数值按照指定的⼀个方式进行一层的拆分
instance 代表的是机器名
意思就是说把sum函数中服务器加合的这个糗事再给它强行拆分出来

sum(increase(node_cpu_seconds_total{mode="idle"}[1m])) by (instance)

sum() by (cluster_name) 可以帮我们实现集群加合并分三条曲线输出了，顺带一提的是 (cluster_name) 这个标签，默认node_exporter是没有办法提供的，node_exporter只能按照不同的机器名去划分。如果希望支持cluster_name 我们需要自行定义标签。

topk()

topk() 函数的定义是：取前面x位的最高值,最简单理解就是数学的top，当我们有很多服务器我们想要获取某个key的数据排在前3位的服务器。

Gauge类型使用方式：

topk(3,key)
Counter类型使用方式

topk(3,rate(key[1m]))
注意：此种函数获得数据并不是很适用图形化展示，实际使用的时候⼀般用topk（）函数进行瞬时报警而不是为了观察曲线图

count

count()
定义：把数值符合条件的输出数目进行加合
例如：找出当前（或者历史的）当数值数大于2000的机器数量

posted @ 2023-01-23 15:07 老夫聊发少年狂88 阅读(1422) 评论(0) 编辑收藏举报

刷新页面返回顶部