23、nginx动态添加nginx_upstream_check_module健康检查模块
nginx_upstream_check_module模块地址:https://github.com/yaoweibin/nginx_upstream_check_module
23.1、说明:
1、nginx自带的针对后端节点健康检查的功能比较简单,通过默认自带的ngx_http_proxy_module模块和ngx_http_upstream_module
模块中的相关指令来完成当后端节点出现故障时,自动切换到健康节点来提供访问。
2、示例:
upstream pools {
server 192.168.3.101:80 weight=1 max_fails=3 fail_timeout=3s;
}
参数说明:
(1)max_fails=<number>:
设定Nginx与服务器通信的尝试失败的次数。在fail_timeout参数定义的时间段内,如果失败的次数达到此值,Nginx就认为服务器不可用。
在下一个fail_timeout时间段,服务器不会再被尝试。失败的尝试次数默认是1。设为0就会停止统计尝试次数,认为服务器是一直可用的。
可以通过指令proxy_next_upstream、fastcgi_next_upstream、memcached_next_upstream来配置什么是失败的尝试。默认配置时,
http_404状态不被认为是失败的尝试。
(2)fail_timeout=<time>:
设定服务器被认为不可用的时间段以及统计失败尝试次数的时间段。在这段时间中,服务器失败次数达到指定的尝试次数,服务器就被认为
不可用。默认情况下,该超时时间是10秒。
3、小结:
以上可以得出Nginx无法主动识别后端节点状态,后端即使有不健康节点,负载均衡器依然会先把该请求转发给该不健康节点,然后再转发
给别的节点,这样就会浪费一次转发,而且自带模块无法做到预警。因此需要使用第三方模块nginx_upstream_check_module。
nginx_upstream_check_module模块由淘宝团队开发,淘宝自己的tengine上是自带了该模块的,可以访问淘宝http://tengine.taobao.org/
官网来获取该版本的nginx。我使用的是原生Nginx,采用添加模块的方式。
23.2、添加模块流程:
1、下载第三方扩展模块nginx_upstream_check_module:
[root@slave-node1 ~]# cd /tools/
[root@slave-node1 tools]# wget https://codeload.github.com/yaoweibin/nginx_upstream_check_module/zip/master
[root@slave-node1 tools]# unzip master 1>/dev/null
[root@slave-node1 tools]# ls -ld nginx_upstream_check_module-master
2、查看nginx编译安装时安装了哪些模块:
[root@slave-node1 tools]# /application/nginx/sbin/nginx -V
nginx version: nginx/1.16.0
built by gcc 4.8.5 20150623 (Red Hat 4.8.5-39) (GCC)
built with OpenSSL 1.0.2k-fips 26 Jan 2017
TLS SNI support enabled
configure arguments: --user=nginx --group=nginx --with-http_ssl_module --with-http_stub_status_module --prefix=/application/nginx-1.16.0
3、重新编译nginx,加入需要安装的模块:
(1)进入到nginx之前源码编译安装的目录(如果之前源码编译的目录被清除,可以重新解压一个源码包即可):
[root@slave-node1 tools]# cd nginx-1.16.0/
(2)为nginx打补丁:
[root@slave-node1 nginx-1.16.0]# patch -p0 < /tools/nginx_upstream_check_module-master/check_1.11.5+.patch
#check版本对nginx的版本有要求,1.12以上版本的nginx补丁为check_1.11.5+.patch。-p0:当前路径,-p1:上一级路径。
(3)添加模块(--add-module=/tools/nginx_upstream_check_module-master):
[root@slave-node1 nginx-1.16.0]# ./configure --user=nginx --group=nginx --with-http_ssl_module --with-http_stub_status_module --prefix=/application/nginx-1.16.0 --add-module=/tools/nginx_upstream_check_module-master
[root@slave-node1 nginx-1.16.0]# make
#注意:make后千万不要make install,因为只是编译,不安装,否则会覆盖掉线上的配置。
(4)检查模块是否被添加成功:
[root@slave-node1 nginx-1.16.0]# objs/nginx -V
注意:以后该模块目录是不能删除的,否则会因为找不到模块目录会出错。
4、替换线上nginx二进制文件:
(1)停止nginx服务:
[root@slave-node1 nginx-1.16.0]# cd ~
[root@slave-node1 ~]# /application/nginx/sbin/nginx -s stop
(2)备份线上nginx二进制文件:
[root@slave-node1 ~]# mv /application/nginx/sbin/nginx{,.bak}
(3)复制:
[root@slave-node1 ~]# cp -a /tools/nginx-1.16.0/objs/nginx /application/nginx/sbin/
(4)再次验证模块是否添加成功:
[root@slave-node1 ~]# /application/nginx/sbin/nginx -V
#至此,nginx的nginx_upstream_check_module健康检查模动态安装安装完成。
23.3、修改upstream反向代理池,让nginx_upstream_check_module模块生效:
这里以tomcat8080/8081实例负载均衡为例。
1、启动tomcat8080/8081实例:
[root@slave-node1 ~]# for n in {0..1};do su - tomcat /application/tomcat-808$n/bin/startup.sh;sleep 10s;done
2、创建 tomcat-upstream.conf 文件:
[root@slave-node1 ~]# vim /application/nginx/conf/conf.d/tomcat-upstream.conf
upstream tomcat_pools {
ip_hash;
server 172.16.1.91:8080 weight=1 max_fails=3 fail_timeout=3s;
server 172.16.1.91:8081 weight=1 max_fails=3 fail_timeout=3s;
check interval=2000 rise=3 fall=2 timeout=1000 type=http;
#对tomcat_pools这个负载均衡池中的所有节点,每个2秒检测一次,
#请求3次正常则标记realserver状态为up,如果检测2次都失败,则
#标记realserver的状态为down,后端健康请求的超时时间为1s,健
#康检查包的类型为http请求。
check_http_send "HEAD / HTTP/1.0\r\n\r\n";
#通过http HEAD消息头检测realserver的健康
check_http_expect_alive http_2xx http_3xx;
#该指令指定HTTP回复的成功状态,默认为2XX和3XX的状态是健康的
}
server {
listen 0.0.0.0:80;
server_name localhost;
access_log logs/tomcat-access.log main;
error_log logs/tomcat-error.log warn;
location / {
proxy_pass http://tomcat_pools;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
}
location /nstatus {
#状态页配置
check_status;
access_log off;
allow 172.16.1.254;
#允许可以连接的远端ip地址
deny all;
#限制所有远端ip的连接
}
}
健康检查参数说明:
interval:向后端发送的健康检查包的间隔。
fall(fall_count):如果连续失败次数达到fall_count,服务器就被认为是down。
rise(rise_count):如果连续成功次数达到rise_count,服务器就被认为是up。
timeout:后端健康请求的超时时间。
default_down:设定初始时服务器的状态,如果是true,就说明默认是down的,如果是false,就是up的。
默认值是true,也就是一开始服务器认为是不可用,要等健康检查包达到一定成功次数以后才会被认为是健康的。
type:健康检查包的类型,现在支持以下多种类型:
tcp:简单的tcp连接,如果连接成功,就说明后端正常。
ssl_hello:发送一个初始的SSL hello包并接受服务器的SSL hello包。
http:发送HTTP请求,通过后端的回复包的状态来判断后端是否存活。
mysql:向mysql服务器连接,通过接收服务器的greeting包来判断后端是否存活。
ajp:向后端发送AJP协议的Cping包,通过接收Cpong包来判断后端是否存活。
port:指定后端服务器的检查端口。你可以指定不同于真实服务的后端服务器的端口,比如后端提供的是443端
口的应用,你可以去检查80端口的状态来判断后端健康状况。默认是0,表示跟后端server提供真实服务的端口一
样。该选项出现于Tengine-1.4.0。
3、检测nginx配置文件:
[root@slave-node1 ~]# /application/nginx/sbin/nginx -t
4、启动nginx负载均衡:
[root@slave-node1 ~]# /application/nginx/sbin/nginx
5、访问网站:
6、通过web界面查看负载均衡下realserver的健康状态:
(1)访问http://172.16.1.91/nstatus监控界面:
(2)down掉tomcat8080实例:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 葡萄城 AI 搜索升级:DeepSeek 加持,客户体验更智能
· 什么是nginx的强缓存和协商缓存
· 一文读懂知识蒸馏