ELK集群搭建-zabbix整合告警
ELK集群部署(三)
ELK 是 elastic 公司旗下三款产品ElasticSearch、Logstash、Kibana的首字母组合,也即Elastic Stack包含ElasticSearch、Logstash、Kibana、Beats。ELK提供了一整套解决方案,并且都是开源软件,之间互相配合使用,完美衔接,高效的满足了很多场合的应用,是目前主流的一种日志系统。
ElasticSearch 一个基于 JSON 的分布式的搜索和分析引擎,作为 ELK 的核心,它集中存储数据,
用来搜索、分析、存储日志。它是分布式的,可以横向扩容,可以自动发现,索引自动分片
Logstash 一个动态数据收集管道,支持以 TCP/UDP/HTTP 多种方式收集数据(也可以接受 Beats 传输来的数据),
并对数据做进一步丰富或提取字段处理。用来采集日志,把日志解析为json格式交给ElasticSearch
Kibana 一个数据可视化组件,将收集的数据进行可视化展示(各种报表、图形化数据),并提供配置、管理 ELK 的界面
Beats 一个轻量型日志采集器,单一用途的数据传输平台,可以将多台机器的数据发送到 Logstash 或 ElasticSearch
X-Pack 一个对Elastic Stack提供了安全、警报、监控、报表、图表于一身的扩展包,不过收费
1
2
3
4
5
6
7
8
9
10
11
官网:https://www.elastic.co/cn/ ,中文文档:https://elkguide.elasticsearch.cn/
下载elk各组件的旧版本:
https://www.elastic.co/downloads/past-releases
grok正则表达式参考:
https://github.com/logstash-plugins/logstash-patterns-core/blob/master/patterns/grok-patterns
环境准备
注意,这里我不再沿用之前的主机配置。
角色划分:
系统:CentOS 7
zabbix server 192.168.1.252
es主节点/es数据节点/logstash 192.168.1.253
es主节点/es数据节点/kibana/head 192.168.1.254
es主节点/es数据节点/filebeat 192.168.1.255
1
2
3
4
5
6
7
8
9
全部关闭防火墙和selinux:
# systemctl stop firewalld && systemctl disable firewalld
# sed -i 's/=enforcing/=disabled/g' /etc/selinux/config && setenforce 0
1
2
3
全部配置系统环境:
# vim /etc/security/limits.conf
* soft nofile 65536
* hard nofile 131072
* soft nproc 2048
* hard nproc 4096
1
2
3
4
5
6
# vim /etc/sysctl.conf
vm.max_map_count=655360
# sysctl -p
1
2
3
4
5
全部安装Java环境:
# tar zxf jdk-8u191-linux-x64.tar.gz && mv jdk1.8.0_191/ /usr/local/jdk
# vim /etc/profile
JAVA_HOME=/usr/local/jdk
PATH=JAVA_HOME/bin:JAVA_HOME/lib/dt.jar:JAVA_HOME/jre/lib
export JAVA_HOME PATH CLASSPATH
# source !$
# java -version
# ln -s /usr/local/jdk/bin/java /usr/local/bin/java
1
2
3
4
5
6
7
8
9
10
11
12
13
14
ELK结合Zabbix告警
Logstash支持多种输出介质,比如syslog、HTTP、TCP、elasticsearch、kafka等,而有时候我们想将收集到的日志中一些错误信息输出,并告警时,就用到了logstash-output-zabbix这个插件,此插件可以将Logstash与zabbix进行整合,也就是将Logstash收集到的数据进行过滤,将有错误标识的日志输出到zabbix中,最后通过zabbix的告警机制进行触发、告警。
logstash-plugin相关命令:
logstash安装目录是/usr/local/logstash
列出所有已安装的插件
# /usr/local/logstash/bin/logstash-plugin list
列出已安装的插件及版本信息
# /usr/local/logstash/bin/logstash-plugin list --verbose
列出包含关键字的所有已安装插件
# /usr/local/logstash/bin/logstash-plugin list "http"
列出特定组的所有已安装插件( input,filter,codec,output)
# /usr/local/logstash/bin/logstash-plugin list --group input
更新所有已安装的插件
# /usr/local/logstash/bin/logstash-plugin update
更新指定的插件
# /usr/local/logstash/bin/logstash-plugin update logstash-output-kafka
安装指定的插件
#/usr/local/logstash/bin/logstash-plugin install logstash-output-kafka
删除指定的插件
# /usr/local/logstash/bin/logstash-plugin remove logstash-output-kafka
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
安装zabbix插件:
# /usr/local/logstash/bin/logstash-plugin install logstash-output-zabbix
1
logstash-output-zabbix安装好之后,就可以在logstash配置文件中使用了,下面是一个logstash-output-zabbix使用的例子:
zabbix {
zabbix_host => "[@metadata][zabbix_host]"
zabbix_key => "[@metadata][zabbix_key]"
zabbix_server_host => "x.x.x.x"
zabbix_server_port => "xxxx"
zabbix_value => "xxxx"
}
1
2
3
4
5
6
7
其中:
zabbix_host:表示Zabbix主机名字段名称, 可以是单独的一个字段, 也可以是 @metadata 字段的子字段, 是必需的设置,没有默认值。
zabbix_key:表示Zabbix项目键的值,也就是zabbix中的item,此字段可以是单独的一个字段, 也可以是 @metadata 字段的子字段,没有默认值。
zabbix_server_host:表示Zabbix服务器的IP或可解析主机名,默认值是 "localhost",需要设置为zabbix server服务器所在的地址。
zabbix_server_port:表示Zabbix服务器开启的监听端口,默认值是10051。
zabbix_value:表示要发送给zabbix item监控项的值对应的字段名称,默认值是 "message",也就是将"message"字段的内容
发送给上面zabbix_key定义的zabbix item监控项,当然也可以指定一个具体的字段内容发送给zabbix item监控项。
1
2
3
4
5
6
7
8
9
10
nginx日志告警:
以nginx访问日志和错误日志为例,结合zabbix实现nginx错误告警。
nginx默认配置:
如果是yum安装
error_log /var/log/nginx/error.log; #默认是crit级别
log_format main 'remote_user [request" '
'body_bytes_sent "http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
1
2
3
4
5
6
7
8
9
配置nginx:
# vim /usr/local/nginx/conf/nginx.conf
error_log /usr/local/nginx/logs/error.log error;
log_format main 'remote_user [request" '
'body_bytes_sent "http_user_agent" "$http_x_forwarded_for"';
access_log /usr/local/nginx/logs/access.log main;
# vim /usr/local/nginx/conf/vhost/elk.conf
server {
listen 80;
server_name elk.lzx.com;
location / {
proxy_pass http://192.168.1.254:5601;
proxy_set_header Host remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
}
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
grok过滤nginx访问日志:
%{IPV4:remote_addr} - (%{USERNAME:user}|-) \"%{WORD:method} %{DATA:request} HTTP/%{NUMBER:httpversion}\" %{NUMBER:status} %{NUMBER:bytes} %{QS:referer} %{QS:agent} %{QS:xforward}
1
针对不同的日志,我们可以在kibana页面进行调试,直到完整过滤为止。
grok过滤nginx错误日志:
(?<timestamp>%{YEAR}[./-]%{MONTHNUM}[./-]%{MONTHDAY} %{TIME}) %{POSINT:pid}#%{NUMBER}: %{DATA:error}, (client: (?<clientip>%{IP}|%{HOSTNAME})), (server: (?<server>%{IPORHOST})), (request: (?<request>%{QS})), (upstream: (?<upstream>\"%{URI}\"|%{QS})), (host: (?<host>%{QS})), (referrer: \"%{URI:referrer}\")
1
配置logstash:
# vim /usr/local/logstash/conf.d/nginx.conf
input {
file {
path => "/usr/local/nginx/logs/access.log"
#start_position => "beginning" #尽量不开启从开头输入数据,否则可能会重复告警
type => "nginx_access"
sincedb_path => "/dev/null"
}
file {
path => "/usr/local/nginx/logs/error.log"
#start_position => "beginning"
type => "nginx_error"
sincedb_path => "/dev/null"
}
}
filter {
if [type] == "nginx_access" {
grok {
match => [ "message", "%{IPV4:remote_addr} - (%{USERNAME:user}|-) \"%{WORD:method} %{DATA:request} HTTP/%{NUMBER:httpversion}\" %{NUMBER:status} %{NUMBER:bytes} %{QS:referer} %{QS:agent} %{QS:xforward}"]
}
mutate {
add_field => [ "[zabbix_key]", "nginx_access_status" ]
add_field => [ "[zabbix_host]", "192.168.1.253" ] #建议使用主机IP,使用%{host}变量可能返回hostname
}
}
if [type] == "nginx_error" {
grok {
match => [ "message" , "(?<timestamp>%{YEAR}[./-]%{MONTHNUM}[./-]%{MONTHDAY} %{TIME}) %{POSINT:pid}#%{NUMBER}: %{DATA:error}, (client: (?<clientip>%{IP}|%{HOSTNAME})), (server: (?<server>%{IPORHOST})), (request: (?<request>%{QS})), (upstream: (?<upstream>\"%{URI}\"|%{QS})), (host: (?<host>%{QS})), (referrer: \"%{URI:referrer}\")"]
}
mutate {
add_field => [ "[zabbix_key]", "nginx_error" ]
add_field => [ "[zabbix_host]", "192.168.1.253" ]
}
}
}
output {
if [type] == "nginx_access" {
elasticsearch {
hosts => ["192.168.1.253:9200"]
user => "elastic"
password => "elk-2019"
index => "nginx-access.log-%{+YYYY.MM.dd}"
}
if [status] =~ /(403|404|500|502|503|504)/ {
zabbix {
zabbix_host => "[zabbix_host]"
zabbix_key => "[zabbix_key]"
zabbix_server_host => "192.168.1.252"
zabbix_server_port => "10051"
zabbix_value => "message"
}
}
}
if [type] == "nginx_error" {
elasticsearch {
hosts => ["192.168.1.253:9200"]
user => "elastic"
password => "elk-2019"
index => "nginx-error.log-%{+YYYY.MM.dd}"
}
if [message] =~ /(error|emerg)/ {
zabbix {
zabbix_host => "[zabbix_host]"
zabbix_key => "[zabbix_key]"
zabbix_server_host => "192.168.1.252"
zabbix_server_port => "10051"
zabbix_value => "message"
}
}
}
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
zabbix页面配置监控项及触发器:
nginx 访问日志监控项及触发器
nginx 错误日志监控项及触发器
如果没有配置监控项就去启动logstash会报错:
[WARN ][logstash.outputs.zabbix ] Zabbix server at 192.168.1.252 rejected all items sent.{:zabbix_host=>"192.168.1.253"}
1
启动logstash:
# > /usr/local/nginx/logs/access.log
# > /usr/local/nginx/logs/error.log #方便实验,先清空nginx日志
# /usr/local/nginx/sbin/nginx
# systemctl restart logstash
# tail -f /usr/local/logstash/logs/logstash-plain.log #查看启动日志看是否正常启动
1
2
3
4
5
6
7
8
9
access.log 添加一条status异常的日志:
# vim /usr/local/nginx/logs/access.log
192.168.1.109 - - [26/Apr/2019:14:17:12 +0800] "GET /ui/fonts/open_sans/open_sans_v15_latin_700.woff2 HTTP/1.1" 304 0 "http://elk.lzx.com/app/kibana" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36" "-"
192.168.1.109 - - [26/Apr/2019:14:17:12 +0800] "GET /ui/fonts/open_sans/open_sans_v15_latin_700.woff2 HTTP/1.1" 404 0 "http://elk.lzx.com/app/kibana" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36" "-"
#将状态码从304改为404
1
2
3
4
5
6
zabbix告警:
稍等片刻,zabbix就会自动告警
对应告警邮件:
error.log 让产生一条错误日志:
# cp /usr/local/nginx/conf/vhost/elk.conf /usr/local/nginx/conf/vhost/test.conf
# vim !$
rver {
listen 80;
server_name elk.lzx.com;
location / {
proxy_pass http://192.168.1.254:5601;
proxy_set_header Host remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
}
}
# /usr/local/nginx/sbin/nginx -t
nginx: [emerg] unknown directive "rver" in /usr/local/nginx/conf/vhost/test.conf:1
nginx: configuration file /usr/local/nginx/conf/nginx.conf test failed
# tail /usr/local/nginx/logs/error.log
2019/04/26 14:16:41 [notice] 28426#0: signal process started
2019/04/26 14:33:17 [emerg] 28589#0: unknown directive "rver" in /usr/local/nginx/conf/vhost/test.conf:1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
zabbix告警:
对应告警邮件:
生产环境下,对于访问日志,尽量监控500|502|503|504,50开头才是服务器故障,40开头是客户端问题,如下图
至此,logstash收集nginx日志并结合zabbix告警完成。
tomcat日志告警
tomcat有这些日志:
* catalina开头的日志为Tomcat的综合日志,它记录Tomcat服务相关信息,也会记录错误日志
* host-manager和manager为管理相关的日志,其中host-manager为虚拟主机的管理日志
* localhost和localhost_access为虚拟主机相关日志,其中带access字样的为访问日志,
不带access字样的为默认主机的错误日志(访问日志默认不会生成,需要在server.xml中配置一下)
错误日志会统一记录到catalina.out中,出现问题应该首先查看它
1
2
3
4
5
6
7
8
对于tomcat日志,首要收集的是catalina.out和localhost_access_log日志。如果是java项目运行在tomcat之上,那我们只需要收集项目日志即可。
安装tomcat:
# tar zxf apache-tomcat-8.5.39.tar.gz && mv apache-tomcat-8.5.39 /usr/local/tomcat
# vim /usr/local/tomcat/bin/catalina.sh
# OS specific support. PATH:JAVA_HOME/jre/bin
CLASSPATH=.:JAVA_HOME/lib/tools.jar:$JAVA_HOME/jre/lib
1
2
3
4
5
6
7
8
默认配置:
# vim /usr/local/tomcat/conf/server.xml
<Valve className="org.apache.catalina.valves.AccessLogValve" directory="logs"
prefix="localhost_access_log" suffix=".txt"
pattern="%h %l %u %t "%r" %s %b" />
1
2
3
4
5
grok过滤tomcat catalina.out日志:
(?<timestamp>%{MONTHDAY}-%{MONTH}-%{YEAR} %{TIME}) %{LOGLEVEL:severity} %{GREEDYDATA:msg}
1
针对不同的日志,我们可以在kibana页面进行调试,直到完整过滤为止。
grok过滤tomcat local_access_log日志:
%{IPORHOST:clientip} %{USER:ident} %{USER:auth} \"(?:%{WORD:method} %{URIPATHPARAM:request}(?: HTTP/%{NUMBER:httpversion})?|-)\" %{NUMBER:response_status} (?:%{NUMBER:bytes}|-)
1
配置logstash:
# vim /usr/local/logstash/conf.d/tomcat.conf
input {
file {
path => "/usr/local/tomcat/logs/catalina.out"
#start_position => "beginning"
type => "catalina"
sincedb_path => "/dev/null"
}
file {
path => "/usr/local/tomcat/logs/localhost_access_log*.txt"
#start_position => "beginning"
type => "localhost_access"
sincedb_path => "/dev/null"
}
}
filter {
if [type] == "catalina" {
grok {
match => [ "message", "(?<timestamp>%{MONTHDAY}-%{MONTH}-%{YEAR} %{TIME}) %{LOGLEVEL:severity} %{GREEDYDATA:msg}"]
}
mutate {
add_field => [ "[zabbix_key]", "tomcat_catalina_error" ]
add_field => [ "[zabbix_host]", "192.168.1.253" ]
}
}
if [type] == "localhost_access" {
grok {
match => [ "message" , "%{IPORHOST:clientip} %{USER:ident} %{USER:auth} \"(?:%{WORD:method} %{URIPATHPARAM:request}(?: HTTP/%{NUMBER:httpversion})?|-)\" %{NUMBER:response_status} (?:%{NUMBER:bytes}|-)"]
}
mutate {
add_field => [ "[zabbix_key]", "tomcat_localhost_access_status" ]
add_field => [ "[zabbix_host]", "192.168.1.253" ]
}
}
}
output {
if [type] == "catalina" {
elasticsearch {
hosts => ["192.168.1.253:9200"]
user => "elastic"
password => "elk-2019"
index => "catalina.out-%{+YYYY.MM.dd}"
}
if [message] =~ /(WARN|ERROR|SEVERE)/ {
zabbix {
zabbix_host => "[zabbix_host]"
zabbix_key => "[zabbix_key]"
zabbix_server_host => "192.168.1.252"
zabbix_server_port => "10051"
zabbix_value => "message"
}
}
}
if [type] == "localhost_access" {
elasticsearch {
hosts => ["192.168.1.253:9200"]
user => "elastic"
password => "elk-2019"
index => "localhost_access.log-%{+YYYY.MM.dd}"
}
if [response_status] =~ /(500|502|503|504)/ {
zabbix {
zabbix_host => "[zabbix_host]"
zabbix_key => "[zabbix_key]"
zabbix_server_host => "192.168.1.252"
zabbix_server_port => "10051"
zabbix_value => "message"
}
}
}
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
zabbix页面配置监控项及触发器:
tomcat catalina.out日志监控项及触发器
tomcat local_access_log日志日志监控项及触发器
启动logstash:
# /usr/local/tomcat/bin/startup.sh
# systemctl restart logstash
# tail -f /usr/local/logstash/logs/logstash-plain.log #查看启动日志看是否正常启动
1
2
3
4
5
catalina.out 添加一条错误日志:
# vim /usr/local/tomcat/logs/catalina.out
28-Apr-2019 10:29:58.909 INFO [main] org.apache.catalina.startup.Catalina.start Server startup in 666 ms
28-Apr-2019 10:29:58.909 ERROR [main] org.apache.catalina.startup.Catalina.start Server startup in 666 ms
#将severity从INFO改为ERROR
1
2
3
4
5
6
zabbix告警:
对应告警邮件:
localhost_access_log 添加一条错误日志:
# vim /usr/local/tomcat/logs/localhost_access_log.2019-04-28.txt
192.168.1.109 - - [28/Apr/2019:13:33:39 +0800] "GET /host-manager/html HTTP/1.1" 403 3022
192.168.1.109 - - [28/Apr/2019:13:33:39 +0800] "GET /host-manager/html HTTP/1.1" 502 3022
#将状态码从403改成503
1
2
3
4
5
6
zabbix告警:
对应告警邮件:
至此,logstash收集tomcat日志并结合zabbix告警完成。整个过程十分简单,重点在于grok的正则表达式的匹配。
后记
后面部署完成之后,遇到一个问题。告警没有问题,但是告警之后无法自动恢复(关闭问题),这就导致需要手动去确认关闭问题,否则接下来的新产生的错误日志无法告警,这是很严重的问题——如果手动关闭不及时,则必然有错误日志告警遗漏。
所以后面在触发器的“恢复表达式”反复测试,想来想去,感觉触发器函数中的count和nodata都合适,其中nodata最为合适:
上面这个配置感觉没什么问题,但是告警问题依然无法自动关闭,仍然需要手动确认关闭。count函数也不起作用,感觉很奇怪。
后面换了角度,更换“问题表达式”的函数,如果选择“表达式”则表示取“问题表达式”的反,选择“恢复表达式”则表示额外指定判断条件来让告警问题自动恢复。
可以看到,没有手动确认,在问题告警之后1分钟自动关闭问题。而错误日志一般情况下在1分钟内不会有多条产生,这样就可以让我们能够收到全部的错误日志告警,而不需要很操蛋地去手动点确认。
————————————————
版权声明:本文为CSDN博主「最爱喝酸奶」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/miss1181248983/article/details/89636935
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
2022-11-09 Nginx配置文件详解