第十三讲：Prometheus 企业级实际使⽤

　　本讲主要内容

　　prometheus+grafana 企业CPU监控真实案例
　　prometheus+grafana 企业内存监控真实案例
　　prometheus+grafana 企业硬盘/IO监控真实案例
　　prometheus+grafana 企业⽹络传输真实案例

　　（一）prometheus+grafana 企业CPU监控真实案例

　　为什么基础监控第一项是CPU

　　1）CPU是处理所有任务的核心

　　2）另外 Linux 由于CPU存在各种状态类型CPU时间所以很多情况下⼤部分的出现问题的情况都可以反应在CPU的表现上

　　下⾯举⼀个在企业中对CPU使⽤率监控的实例

　　数据采集： Node_exporter
　　使用公式

(1-sum(increase(node_cpu{mode="idle"}[1m])) by(instance) / sum(increase(node_cpu[1m])) by(instance))*100

　　第⼀幅图就是咱们之前讲过的，计算CPU综合使⽤率这⾥就不再重复它的计算⽅法了

　　在⽣产环境中⼀般70-80%以上的CPU⾼是因为⽤户态user CPU⾼所导致

　　我们使⽤Top命令随便查看⼀台服务器的时候⼀般也会看到 user%会最⾼

　　⽤户态的CPU使⽤率是跟应⽤程序（或者说软件）的运⾏密切相关的

　　不过我们在做监控的时候⼀般倒是不⽤单独列出⼀个 user% 态的CPU使⽤率图因为除去IO等待造成的CPU⾼之外，⼤部分情况就是 user%造成

　　下图是io等待CPU利用率的监控图

　　监控公式是

(sum(increase(node_cpu{mode="iowait"}[1m])) by (instance)/sum(increase(node_cpu[1m]))by (instance) ) * 100

　　第⼆个图是针对 IOWAIT类型的 CPU等待时间 user% 其中不同的地⽅是mode=iowait

　　很多情况下，当服务器硬盘IO占⽤过⼤时，CPU会等待IO 的返回进⼊ interuptable 类型的CPU等待时间所以对于 IOWAIT CPU的监控是很有必要的

　　grafana 另外对于CPU⾼的报警阈值是这样的设置的

　　设置成 99 或者 100 都可以如果设置成 80 90 就报警，根据实际测试并不合适，因为 80% 90%状态下的服务器还是可以处理请求的只不过速度会慢了但是⼀旦综合CPU上了 98 99 100 那么整个服务器就⼏乎失去可⽤性了连SSH登录有时候都很困难所以针对Linux系统的优化⾮常重要要通过各种内核参数软件参数来控制服务器尽量不让CPU堆到 99 100

　　(二) prometheus+grafana 企业内存监控真实案例

　　接下来就到了内存监控了⾸先⼤⽶需要给⼤家说⼀下内存的计算⽅式我们先从Linux命令来看起

free -m

　　内存管理是Linux内核的⾮常重要的⼀个强势功能可以说 Linux对于内存的使⽤率⾮常的⾼校⽐起windows来说真的智能了很多

　　主要依赖于 Linux内存管理的缓存功能（简单来说就是刚⽤过的内存中的内容会被暂时缓存⼀段时间以备下次再使⽤快速调⽤）

　　然⽽ 5.x 6.x 的内存命令却有⼀点不太善解⼈意对于⼤多数的零基础和初级学员来说, 命令⾏显⽰的这个

　　很容易让⼈误解

　　直接给出⼤家 5.x 6.x 的真实内存使⽤率公式即可

　　从应⽤用程序的⻆角度来说，Linux 实际可⽤用内存=系统free memory+buﬀers+cached。

　　Centos 7.x
　　对于最新的 7.x中 free 命令⾏的输出解决了这个问题变得简单易懂实际可⽤内存直接放在最后⼀列直接使⽤

　　接下来我们来看企业实际内存监控案例

　　监控公式适用于CentOS 5 6 7

(1-((node_memory_Buffers+ node_memory_Cached+ node_memory_MemFree) / node_memory_MemTotal)) * 100

　　所以说我们从内存的计算公式来说， promehtues也让我们很精细很放⼼，很多⽼式的监控直接返回⼀个内存使⽤率很多时候⽆法确认准确性　　　　　

　　（三） prometheus+grafana 企业硬盘/IO监控真实案例

　　数据来源：Node_exporter

　　硬盘剩余容量的监控相⽐上⾯的2个就简单很多

(node_filesystem_free/node_filesystem_size)<0.2

　　当硬盘空闲率小于20%则显示

　　我在这⾥给⼤家推荐另⼀个难度较⾼的 prometheus 函数 predict_linear()
　　对于硬盘使⽤率来说

　　通常不管使⽤什么样⼦的监控⼯具基本上都是简单算法空闲/总量或以使⽤/总量当⼤于或⼩于⼀个阈值时报警
这么定义的⽅法⽐较简单也普遍

　　这个函数如果想讲清楚它的底层实现原理没个 2 3天还真说不完我们在这⾥就给⼤家简单介绍⼀下它能做什么吧对于刚才那种硬盘百分⽐报警的案例(剩余空间的百分⽐) predict_linear() 函数可以起到对曲线变化速率的计算以及在⼀段时间加速度的未来预测说的更简单⼀些它可以实时监测硬盘使⽤率曲线的变化情况，假如在⼀个很⼩的时间段中发现硬盘使⽤率急速的下降（跟之前平缓时期相⽐较）

　　那么对这种下降的速度进⾏⼀个未来⼀段时间的预测，如果发现未来⽐如5分钟内按照这个速度硬盘肯定就100%了那么在当前硬盘还剩余 20%的时候就会报警！

　　说起来都觉得绕⼜不过使⽤起来并不是很难

　　官网介绍

　　https://prometheus.io/docs/prometheus/latest/querying/functions/#predict_linear()

　　然后我们来看下硬盘IO使⽤的监控
　　使用的公式

((rate(node_disk_bytes_read[1m] )+ rate(node_disk_bytes_written[1m])) / 1024 /1024) > 0

　　硬盘IO针对不同服务器差别较大，生产中可以多分几张图进行区分

　　硬盘使⽤率是 read + written 读和写都会占⽤IO /1024 两次后就由 bytes => Mbs

　　如果这个指标标⾼了，那么必然 CPU_IOWAIT 也会飙⾼

　　（四）prometheus+grafana 企业⽹络传输真实案例

　　计算公式

rate(node_network_transmit_bytes[1m]) /1024 /1024

posted @ 2020-07-27 14:45 minseo 阅读(484) 评论(0) 收藏举报

刷新页面返回顶部

minseo

第十三讲：Prometheus 企业级实际使⽤

（一）prometheus+grafana 企业CPU监控 真实案例

(二) prometheus+grafana 企业内存监控 真实案例

（三） prometheus+grafana 企业硬盘/IO监控 真实案例

（四）prometheus+grafana 企业⽹络传输 真实案例

公告

　　（一）prometheus+grafana 企业CPU监控真实案例

　　(二) prometheus+grafana 企业内存监控真实案例

　　（三） prometheus+grafana 企业硬盘/IO监控真实案例

　　（四）prometheus+grafana 企业⽹络传输真实案例