Prometheus整合node_exporter实现主机监控
一、硬件规划
集群角色 | ip | 主机名 |
---|---|---|
控制节点 | 192.168.64.101 | bigdata01 |
工作节点 | 192.168.64.102 | bigdata02 |
工作节点 | 192.168.64.103 | bigdata03 |
软件版本:Cent OS 7.6
- Gafana 8.3.2 (https://grafana.com/grafana/download/8.3.2?edition=oss)
- Prometheus 2.13.1 (https://github.com/prometheus/prometheus/releases/tag/v2.13.1)
- Alert Manager 0.20.0(https://github.com/prometheus/alertmanager/releases/tag/v0.20.0)
二、Prometheus部署
2.1 安装
# 解压
tar -zxvf prometheus-2.13.1.linux-amd64.tar.gz -C /usr/local/
# 创建软连接
mv /usr/local/prometheus-2.13.1.linux-amd64/ /usr/local/prometheus-2.13.1
ln -s /usr/local/prometheus-2.13.1/ /usr/local/prometheus
# 配置data文件夹
mkdir /usr/local/prometheus/data
2.2 添加系统服务
vi /usr/lib/systemd/system/prometheus.service
[Unit]
Description=https://prometheus.io
[Service]
Restart=on-failure
ExecStart=/usr/local/prometheus/prometheus --storage.tsdb.path=/usr/local/prometheus/data --config.file=/usr/local/prometheus/prometheus.yml
[Install]
WantedBy=multi-user.target
2.3 启动Prometheus服务
# 启动
systemctl start prometheus
# 查看状态
systemctl status prometheus
2.4 测试访问
三、Prometheus配置文件介绍
-
global
:此片段指定的是prometheus的全局配置,比如采集间隔、抓取超时时间。 -
rule_files
:此判断指定报警规则文件,prometheus根据这些规则文件,会推送报警信息到alert Manager中。 -
scrape_configs
:此片段指定抓取配置,prometheus的数据采集通过此片段配置。 -
alerting
:此片段指定报警配置,这里主要是指定prometheus将报警规则推送到指定的alertManager实例地址。 -
remote_writer
:指定后端的存储的写入地址 -
remote_reader
:指定后端的存储的读取api地址。
Global配置参数
# How frequently to scrape targets by default. 抓取间隔
[ scrape_interval: <duration> | default = 1m ]
# How long until a scrape request times out.抓取超时时间
[ scrape_timeout: <duration> | default = 10s ]
# How frequently to evaluate rules.评估规则间隔
[ evaluation_interval: <duration> | default = 1m ]
scrapy_config片段的主要参数
一个scrape_config片段指定一组目标和参数,目标就是实例,指定采集的端点,参数描述如何采集这些实例,主要参数如下
scrape_interval: 抓取间隔,默认继承 global 值。
scrape_timeout: 抓取超时时间,默认继承 global 值。
metric_path: 抓取路径, 默认是/metrics
*_sd_configs: 指定服务发现配置
static_configs: 静态指定服务 job。
relabel_config: relabel 设置。
四、node-exporter安装和配置
4.1 node-exporter介绍
Node-exporter 可以采集机器(物理机、虚拟机、云主机)的监控指标数据,能够采集到的指标包括cpu、内存、磁盘、网络、文件数等信息。
4.2 node-exporter安装
# 解压
tar -zxvf node_exporter-0.18.1.linux-amd64.tar.gz -C /usr/local/
mv /usr/local/node_exporter-0.18.1.linux-amd64/ /usr/local/node_exporter-0.18.1
# 创建软连接
ln -s /usr/local/node_exporter-0.18.1/ /usr/local/node_exporter
4.3 添加到系统服务
vi /usr/lib/systemd/system/node_exporter.service
[Unit]
Description=Prometheus node_exporter
[Service]
User=nobody
ExecStart=/usr/local/node_exporter/node_exporter --log.level=error
ExecStop=/usr/bin/killall node_exporter
[Install]
WantedBy=default.target
4.4 启动node_exporter
# 启动
systemctl start node_exporter
# 查看服务状态
systemctl status node_exporter
访问地址: http://ip:9100/metrics,可以看到监控的指标信息
4.5 配置Prometheus
在prometheus.yml中配置node_exporter的metrics
端点,配置如下
global:
scrape_interval: 5s
evaluation_interval: 5s
scrape_timeout: 5s
scrape_configs:
- job_name: 'prometheus'
static_configs:
- targets: ['localhost:9090']
- job_name: 'linux-exporter'
metrics_path: /metrics
static_configs:
- targets: ['localhost:9100']
重启prometheus服务
systemctl restart prometheus
访问Prometheus Web UI地址 http://ip:9090/targets,可以看到新增了target为host_monitor
的监测点。
五、Grafana安装及配置
5.1 Grafana介绍
Grafana是一款用Go语言开发的开源数据可视化工具,可以做数据监控和数据统计,带有告警功能。目前使用grafana的公司有很多,如paypal、ebay、intel等。
5.2 安装
# 下载
wget https://mirrors.tuna.tsinghua.edu.cn/grafana/yum/rpm/Packages/grafana-8.3.2-1.x86_64.rpm --no-check-certificate
# 安装
yum install -y grafana-8.3.2-1.x86_64.rpm
5.3 启动
systemctl start grafana-server
5.4 Web UI
访问 http://ip:3000。默认用户名 密码 admin/admin,设置初始密码。
选择添加Prometheus 数据源。
添加配置prometheus,然后HTTP URL : http://ip:9090。下拉到最下面的,点击Save& Test
。
5.5 添加DashBoard模板
Grafana 官方和社区对已经做好了常用的 DashBoard,可以访问 https://grafana.com/grafana/dashboards 进行查询,选择DashBoard
通过Grafana + 图标导入(import)。输入Grafana id 为 8919
,
注意选中prometheus数据源。