性能测试监控--Prometheus

随着业务的增长，服务器部署由单一架构向分布式集群架构转变，性能测试过程中指标监控也由单一服务器向集群服务器转变。

对于性能测试团队来说，需要建立起适用于测试的多机监控系统，以便后期顺利且高效地进行监控分析调优，从而保证整个测试过程的高可靠性。

因此，小编本期为大家讲讲如何搭建性能测试监控系统，做好关键指标的监控。

1 监控概述

1.1 什么是监控

从技术角度看，监控是度量和管理技术系统的工具和过程。但远不止于此，监控可实现从系统和应用程序生成的指标到业务价值的转换。这些指标转换可度量用户体验，为业务和技术人员提供反馈，指示业务的工作状态以及系统的持续改进。

典型互联网架构图

上图为一个典型的互联网架构图。监控时也要着眼于多个层面，从整体架构去看，而不是去看具体某一个点，这样才能更接近问题的本质。

1.2 监控分类

监控一般可分为：业务级别监控、系统级别监控、网络监控、程序代码监控、日志监控、用户行为分析监控和其他种类监控。下述为常见监控类型的示例：

业务监控：包含用户访问QPS、 DAU日活、访问状态(http code)、业务接口(登录、注册、聊天、上传、留言、短信、搜索等)、产品转化率、充值额度、用户投诉等等这些宏观概念。
系统监控：主要是跟操作系统相关的基本监控项，如CPU、内存、硬盘、IO、TCP链接、流量等等，常用的系统监控工具有：Nagios-plugins、zabbix、prometheus等。
网络监控：监控网络状态对互联网公司必不可少，但常常被忽略，如：内网之间(物理内网和虚拟内网)、外网的丢包率、延迟等。
日志监控：监控中的重头戏，往往单独设计和搭建，全部种类的日志都有采集的需求(syslog、soft、网络设备、用户行为等)，常用的日志管理工具有：Splunk-商业、ELK-开源等。
程序监控：一般需要和开发人员配合，程序中嵌入各种接口以直接获取数据或者特制的日志格式。

2 监控神器Prometheus简介

Prometheus（普罗米修斯）是一套开源的监控&报警&时间序列数据库的组合，常见的Kubernetes容器管理系统通常会搭配Prometheus进行监控。

Prometheus的基本原理是通过HTTP协议周期性抓取被监控组件的状态，优点在于任意组件只要提供HTTP接口就可以接入监控系统，不需要任何 SDK或者其他的集成过程，非常适合虚拟化环境，比如VM或者Docker。

输出被监控组件信息的HTTP接口被叫做Exporter(导出器)。目前互联网公司常用的组件大部分都有Exporter，可以直接使用，比如RabbitMQ、Redis、Nginx、MySQL、Linux系统信息 (包括磁盘、内存、CPU、网络等等)，具体支持的源可查看：https://github.com/prometheus。

Prometheus原理示意

2.1 Prometheus的优势

1. 提供多维数据模型：由度量名称和键值标识的时间序列数据；

2. 内置时间序列数据库：TSDB；

3. 查询语言PromQL灵活，可以利用多维数据完成复杂查询；

4. 基于HTTP的Pull（拉取）方式采集时间序列数据（exporter）；

5. 支持PushGateway组件收集数据；

6. 通过服务发现或静态配置发现目标；

7. 支持多种图形模式及仪表盘；

8. 支持作为数据源接入Grafana；

9. 更适合云环境的监控，尤其对K8S有着更好的支持。

2.2 Prometheus的不足

1. 因其数据采集的精度，如果集群数量太大，单点的监控就会出现性能瓶颈，目前尚不支持集群，只能workaround；

2. 学习成本太大，尤其是其独有的数学命令行(非常强大的同时又极其难学)，中文资料极少，本身的各种数学模型的概念很复杂；

3. 对磁盘资源耗费较大，主要取决于监控的集群数量和监控项的多少及保存时间的长短。

小知识：

Prometheus是为短期监视和警报需求而设计的。默认情况下，它在本地数据库中仅保存15天的时间序列数据。

如果希望保留更长时间的数据，建议将所需的数据发送到远程的第三平台（如InfluxDB），Prometheus具有向外部数据存储写入的能力。

2.3 Prometheus的组成及架构

Prometheus架构图

从这个架构图，可以看出Prometheus的主要模块包含：Prometheus Server、Exporters、Pushgateway、PromQL、Alertmanager、Web UI等。下述为各个组件功能的简单介绍：

Prometheus Server：定期从静态配置的 targets 或者服务发现（主要是DNS、consul、k8s、mesos等）的targets拉取数据。
Exporters：负责向Prometheus Server做数据汇报。不同的数据汇报由不同的Exporters实现，比如监控主机有node-exporters，MySQL有MySQL server exporter，Nginx有nginx-vts-exporter。
Pushgateway：pull(被动)模式要求被监控对象能够提供Exporter服务给Prometheus。该模式为官方推荐，但对于某些情况下，比如我们将Prometheus搭建在外网去监控内网应用的情况下，由于内网有诸多安全限制使得无法穿透，这时就要借助push(主动)模式来解决问题。

push模式需要APP主动推送数据到Pushgateway，Prometheus监控Pushgateway来获取数据。
Alertmanager：实现Prometheus的告警功能。
WebUI：主要通过Grafana来实现Web UI展示。

2.4 Prometheus的数据模型

Prometheus将所有数据存储为时间序列：具有相同度量名称以及标签属于同一个指标。

每个时间序列都由Metric（度量）标准名称和一组键值对（也称为标签）唯一标识，格式为：{=,...}。

时间序列数据

小知识：

Metric（度量）是对软件或者硬件组件属性的度量。为了使度量有用，我们跟踪它的状态，通常随时间记录数据点，这些数据点称为观测值。

观测值由值、时间戳以及有描述观察的一系列属性(如源或标记)组成。观测值的集合称为时间序列。

2.5 Prometheus的指标类型

Counter（计数器）：递增的计数器，代表一种样本数据单调递增的指标，即只增不减，除非监控系统发生了重置。例如，你可以使用Counter类型的指标来表示服务的请求数、已完成的任务数、错误发生的次数等。

计数器示例

Gauge（仪表盘）：可以任意变化的数值，通常用于像温度或者内存使用率这种指标数据，也可以表示能随时增加或减少的“总数”，例如：当前并发请求的数量。

仪表盘示例

Histogram（直方图）：直方图是对数据分布情况的图形表示，由一系列高度不等的长条图（bar）或线段表示。其对一段时间范围内的数据进行采样，并对所有数值求和、统计数据量，用于展示单个测度得知的分布。

直方图示例

Summary（摘要）：与Histogram类似，用于表示一段时间内的数据采样结果（通常是请求持续时间或响应时间大小等），但它直接存储了分位数（通过客户端计算，然后展示出来），而不是通过区间来计算。

摘要示例

3 Prometheus安装方法

3.1 Prometheus下载

下载地址：https://prometheus.io/download/

下载命令：

wget https://github.com/prometheus/prometheus/releases/download/v2.21.0/prometheus-2.21.0.linux-amd64.tar.gz

3.2 Prometheus安装

解压命令如下：

1	`tar -zxvf prometheus-2.21.0.linux-amd64.tar.gz`

解压得到以下文件，其中prometheus为二进制可执行文件。

执行结果示例

移动文件至usr/local/目录，命令如下：

mv  prometheus-2.21.0.linux-amd64  /usr/local/prometheus-2.21.0.linux-amd64

软连接命令如下：

ln  -sv  /usr/local/prometheus-2.21.0.linux-amd64  /usr/local/ Prometheus

执行结果示例

3.3 Prometheus程序启动

解压后得到prometheus二进制文件（默认配置文件），直接执行即可。启动命令如下：

1	`./prometheus --config.file=prometheus.yml &`

查看程序进程及端口号，如下图所示：

程序进程及端口号

启动参数如下：

/usr/local/prometheus/Prometheus
--web.listen-adds=0.0.0.0:9090
--web.read-timeout=5m
--web.max-connections=10
--storage.tsdb.retention=15d
--storage.tsdb.path=data/
--query.max-concurrency-20
--query.timeout-2m

以下为部分参数的解释：

--storage.tsdb.retention=15d：用于设置数据保留于内存和磁盘的时间。保留时间太长，硬盘内存吃不消，太短则难以查询历史数据。一般而言，企业中常设置为15天。
--storage.tsdb.path="data/"：监控数据的存储路径。
--web.read-timeout=5m：请求链接的最大等待时间，防止太多空闲链接占用资源。
--web.max-connections=10：用于设置最大链接数。

小知识：

1. 可利用Prometheus提供的热更新方法实现配置文件的重新加载，相关命令如下：

kill –HUP  4100  //将某个进程挂起
ps -ef |grep prometheus   //查看Promethues的进程是否在运行

2. 配置文件语法检测的相关命令如下：

1	`./promtool check config prometheus.yml`

4 监控案例讲解

Prometheus使用Exporter工具来暴露主机和应用程序上的指标，官方提供的有node_exporter、mysql_exporter等Exporter 安装包，第三方Exporter 也提供了redis、kafka等中间件的tar包。

下文监控案例以node_exporter作为示范。

4.1 部署Agent（node_exporter）

node_exporter为使用Go语言编写的收集器, 用于监控Linux系统，收集Linux资源指标数据。部署方法如下：

步骤一：安装node_exporter。

官方下载地址：https://prometheus.io/download/，从该链接下载node_exporter-1.0.1.linux-amd64.tar.gz，安装命令如下：

tar  -xzvf  node_exporter-1.0.1.linux-amd64.tar.gz
mv  node_exporter-1.0.1.linux-amd64  /usr/local/
ln   -sv  /usr/local/node_exporter-1.0.1.linux-amd64  /usr/local/ node_exporter