详解Supervisor进程守护监控
1.介绍Supervisor
- supervisord
运行 Supervisor 时会启动一个进程 supervisord,它负责启动所管理的进程,并将所管理的进程作为自己的子进程来启动,而且可以在所管理的进程出现崩溃时自动重启。
- supervisorctl
是命令行管理工具,可以用来执行 stop、start、restart 等命令,来对这些子进程进行管理。
supervisor是所有进程的父进程,管理着启动的子进展,supervisor以子进程的PID来管理子进程,当子进程异常退出时supervisor可以收到相应的信号量。
2.安装Supervisor
1.0.0 安装python
yum install python-setuptools
1.0.1 安装Supervisor
easy_install supervisor
安装方法 2
1 2 3 4 | wget https: //pypi.python.org/packages/source/s/supervisor/supervisor-3.1.3.tar.gz tar zxvf supervisor-3.1.3.tar.gz cd supervisor-3.1.3 python setup.py install |
我就是用的安装方法2安装的、
1.2 查看安装是否成功
echo_supervisord_conf
3.配置Supervisor
2.0 创建目录,初始化配置文件
1 2 | mkdir /usr/supervisor echo_supervisord_conf > /usr/supervisor/supervisord.conf |
echo_supervisord_conf详解:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 | [root@centos-011 ~ 07:50:00]#cat /etc/supervisord.conf.bak ; Sample supervisor config file. [unix_http_server] file=/ var /run/supervisor/supervisor.sock ; socket 路径 ;chmod=0700 ; socket 文件的权限 ;chown=nobody:nogroup ; socket 所属用户及组 ;username=user ; 用户名 ;password=123 ; 密码 ;[inet_http_server] ; 是否启用服务,默认是关闭的(启用的话可以看到supervisor 管理的服务状态) ;port=127.0.0.1:9001 ; 监听的IP及端口 ;username=user ; 用户名 ;password=123 ; 密码 [supervisord] ; supervisord 全局配置 logfile=/ var /log/supervisor/supervisord.log ; supervisor 日志路径 logfile_maxbytes=50MB ; 单个日志文件最大数 logfile_backups=10 ; 保留多少个日志文件(默认10个) loglevel=info ; (log level; default info; others: debug,warn,trace) pidfile=/ var /run/supervisord.pid ; pid 文件路径 nodaemon= false ; 启动是否丢到前台,设置为 false ,表示以daemon 的方式启动 minfds=1024 ; 最小文件打开数,对应系统limit.conf 中的nofile ,默认最小为1024,最大为4096 minprocs=200 ; 最小的进程打开数,对应系统的limit.conf 中的nproc,默认为200 ;umask=022 ; (process file creation umask; default 022) ;user=chrism ; 启动supervisord 服务的用户,默认为root ;identifier=supervisor ; (supervisord identifier, default is 'supervisor' ) ;directory=/tmp ; 这里的目录指的是服务的工作目录 ;nocleanup= true ; (don't clean up tempfiles at start; default false ) ;childlogdir=/tmp ; ( 'AUTO' child log dir, default $TEMP) ;environment=KEY=value ; (key value pairs to add to environment) ;strip_ansi= false ; (strip ansi escape codes in logs; def. false ) ; the below section must remain in the config file for RPC ; (supervisorctl/web interface ) to work, additional interfaces may be ; added by defining them in separate rpcinterface: sections [rpcinterface:supervisor] supervisor.rpcinterface_factory = supervisor.rpcinterface:make_main_rpcinterface [supervisorctl] serverurl=unix: ///var/run/supervisor/supervisor.sock ; use a unix:// URL for a unix socket ;serverurl=http: //127.0.0.1:9001 ; use an http:// url to specify an inet socket ;username=chris ; should be same as http_username if set ;password=123 ; should be same as http_password if set ;prompt=mysupervisor ; cmd line prompt ( default "supervisor" ) ;history_file=~/.sc_history ; use readline history if available ; The below sample program section shows all possible program subsection values, ; create one or more 'real' program: sections to be able to control them under ; supervisor. ;[program:theprogramname] ; 定义一个守护进程 ,比如下面的elasticsearch ;command=/bin/cat ; 启动程序使用的命令,可以是绝对路径或者相对路径 ;process_name=%(program_name)s ; 一个python字符串表达式,用来表示supervisor进程启动的这个的名称,默认值是%(program_name)s ;numprocs=1 ; Supervisor启动这个程序的多个实例,如果numprocs>1,则process_name的表达式必须包含%(process_num)s,默认是1 ;directory=/tmp ; supervisord在生成子进程的时候会切换到该目录 ;umask=022 ; umask for process ( default None) ;priority=999 ; 权重,可以控制程序启动和关闭时的顺序,权重越低:越早启动,越晚关闭。默认值是999 ;autostart= true ; 如果设置为 true ,当supervisord启动的时候,进程会自动启动 ;autorestart= true ; 设置为随 supervisord 重启而重启,值可以是 false 、 true 、unexpected。 false :进程不会自动重启 ;startsecs=10 ; 程序启动后等待多长时间后才认为程序启动成功,默认是10秒 ;startretries=3 ; supervisord尝试启动一个程序时尝试的次数。默认是3 ;exitcodes=0,2 ; 一个预期的退出返回码,默认是0,2。 ;stopsignal=QUIT ; 当收到stop请求的时候,发送信号给程序,默认是TERM信号,也可以是 HUP, INT, QUIT, KILL, USR1, or USR2 ;stopwaitsecs=10 ; 在操作系统给supervisord发送SIGCHILD信号时等待的时间 ;user=chrism ; 如果supervisord以root运行,则会使用这个设置用户启动子程序 ;redirect_stderr= true ; 如果设置为 true ,进程则会把标准错误输出到supervisord后台的标准输出文件描述符 ;stdout_logfile=/a/path ; 把进程的标准输出写入文件中,如果stdout_logfile没有设置或者设置为AUTO,则supervisor会自动选择一个文件位置 ;stdout_logfile_maxbytes=1MB ; 标准输出log文件达到多少后自动进行轮转,单位是KB、MB、GB。如果设置为0则表示不限制日志文件大小 ;stdout_logfile_backups=10 ; 标准输出日志轮转备份的数量,默认是10,如果设置为0,则不备份 ;stdout_capture_maxbytes=1MB ; 当进程处于stderr capture mode模式的时候,写入FIFO队列的最大bytes值,单位可以是KB、MB、GB ;stdout_events_enabled= false ; 如果设置为 true ,当进程在写它的stderr ;stderr_logfile=/a/path ; 把进程的错误日志输出一个文件中,除非redirect_stderr参数被设置为 true ;stderr_logfile_maxbytes=1MB ; 错误log文件达到多少后自动进行轮转,单位是KB、MB、GB。如果设置为0则表示不限制日志文件大小 ;stderr_logfile_backups=10 ; 错误日志轮转备份的数量,默认是10,如果设置为0,则不备份 ;stderr_capture_maxbytes=1MB ; 当进程处于stderr capture mode模式的时候,写入FIFO队列的最大bytes值,单位可以是KB、MB、GB ;stderr_events_enabled= false ; 如果设置为 true ,当进程在写它的stderr到文件描述符的时候,PROCESS_LOG_STDERR事件会被触发 ;environment=A=1,B=2 ; 一个k/v对的list列表 ;serverurl=AUTO ; 是否允许子进程和内部的HTTP服务通讯,如果设置为AUTO,supervisor会自动的构造一个url ; The below sample eventlistener section shows all possible ; eventlistener subsection values, create one or more 'real' ; eventlistener: sections to be able to handle event notifications ; sent by supervisor. #这个地方是自定义一个守护进程 [program:elasticsearch] ; 定义一个守护进程 elasticsearch environment=ES_HOME=/usr/local/elasticsearch ; 设置ES_HOME 环境变量 user=elk ; 启动elasticsearch 的用户 directory=/usr/local/elasticsearch ; 进入到这个目录中 command=/usr/local/elasticsearch/bin/elasticsearch ; 执行启动命令 numprocs=1 ; Supervisor启动这个程序的多个实例,如果numprocs>1,则process_name的表达式必须包含%(process_num)s,默认是1 autostart= true ; 设置为随 supervisord 启动而启动 autorestart= true ; 设置为随 supervisord 重启而重启 startretries=3 ; 设置elasticsearch 重启的重试次数 priority=1 ; 权重,可以控制程序启动和关闭时的顺序,权重越低:越早启动,越晚关闭。默认值是999 ;[eventlistener:theeventlistenername] ;command=/bin/eventlistener ; the program (relative uses PATH, can take args) ;process_name=%(program_name)s ; process_name expr ( default %(program_name)s) ;numprocs=1 ; number of processes copies to start (def 1) ;events=EVENT ; event notif. types to subscribe to (req'd) ;buffer_size=10 ; event buffer queue size ( default 10) ;directory=/tmp ; directory to cwd to before exec (def no cwd) ;umask=022 ; umask for process ( default None) ;priority=-1 ; the relative start priority ( default -1) ;autostart= true ; start at supervisord start ( default : true ) ;autorestart=unexpected ; restart at unexpected quit ( default : unexpected) ;startsecs=10 ; number of secs prog must stay running (def. 1) ;startretries=3 ; max # of serial start failures ( default 3) ;exitcodes=0,2 ; 'expected' exit codes for process ( default 0,2) ;stopsignal=QUIT ; signal used to kill process ( default TERM) ;stopwaitsecs=10 ; max num secs to wait b4 SIGKILL ( default 10) ;user=chrism ; setuid to this UNIX account to run the program ;redirect_stderr= true ; redirect proc stderr to stdout ( default false ) ;stdout_logfile=/a/path ; stdout log path, NONE for none; default AUTO ;stdout_logfile_maxbytes=1MB ; max # logfile bytes b4 rotation ( default 50MB) ;stdout_logfile_backups=10 ; # of stdout logfile backups ( default 10) ;stdout_events_enabled= false ; emit events on stdout writes ( default false ) ;stderr_logfile=/a/path ; stderr log path, NONE for none; default AUTO ;stderr_logfile_maxbytes=1MB ; max # logfile bytes b4 rotation ( default 50MB) ;stderr_logfile_backups ; # of stderr logfile backups ( default 10) ;stderr_events_enabled= false ; emit events on stderr writes ( default false ) ;environment=A=1,B=2 ; process environment additions ;serverurl=AUTO ; override serverurl computation (childutils) ; The below sample group section shows all possible group values, ; create one or more 'real' group : sections to create "heterogeneous" ; process groups. ;[ group :thegroupname] ; 服务组管理,可以将多个服务名写到这里管理(组名自定义) ;programs=progname1,progname2 ; 上面配置好的服务名,比如elasticsearch,kibana,logstash ;priority=999 ; the relative start priority ( default 999) ; The [include] section can just contain the "files" setting. This ; setting can list multiple files (separated by whitespace or ; newlines). It can also contain wildcards. The filenames are ; interpreted as relative to this file. Included files *cannot* ; include files themselves. [include] files = supervisord.d/*.ini |
2.1 为了不将所有新增配置信息全写在一个配置文件里,这里新建一个文件夹
mkdir /usr/supervisor/supervisord.d/
2.2 修改系统配置文件
vim /usr/supervisor/supervisord.conf
2.3 include 2.1中新建的supervisord.d文件夹下所有的conf
1 2 | [include] files = /usr/supervisor/supervisord.d/*.conf |
2.4 若需要web查看进程,则去掉[inet_http_server]的注释
1 2 3 4 | [inet_http_server] port=127.0.0.1:9001 ;IP按需配置 username=user password=123 |
5.运行Supervisor
3.0 启动supervisord
supervisord -c /usr/supervisor/supervisord.conf
3.1 查看监听
lsof -i:9001
到这一步,就可以通过 http://ip:9001/ 查看supervisor的web界面了,只不过目前还没有加入任何监控程序。
3.2 增加一个配置文件,以便supervisor用来监控程序
cat > /usr/supervisor/supervisord.d/supervisor_test_one.conf
在新建的supervisor_test_one.conf文件中添加以下配置
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 | [program:test_one] command=java -jar /data/smallvideo/supervisor/taskApp-exec.jar TaskTestOne ; 被监控的进程路径 priority=1 ; 数字越高,优先级越高 numprocs=1 ; 启动几个进程 autostart= true ; 随着supervisord的启动而启动 autorestart= true ; 自动重启 startretries=10 ; 启动失败时的最多重试次数 exitcodes=0 ; 正常退出代码 stopsignal=KILL ; 用来杀死进程的信号 stopwaitsecs=10 ; 发送SIGKILL前的等待时间 redirect_stderr= true ; 重定向stderr到stdout [program:test_two] command=java -jar /data/smallvideo/supervisor/taskApp-exec.jar TaskTestTwo ; 被监控的进程路径 priority=1 ; 数字越高,优先级越高 numprocs=1 ; 启动几个进程 autostart= true ; 随着supervisord的启动而启动 autorestart= true ; 自动重启 startretries=10 ; 启动失败时的最多重试次数 exitcodes=0 ; 正常退出代码 stopsignal=KILL ; 用来杀死进程的信号 stopwaitsecs=10 ; 发送SIGKILL前的等待时间 redirect_stderr= true ; 重定向stderr到stdout |
3.3 supervisor配置文件详解
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 | - command:启动程序使用的命令,可以是绝对路径或者相对路径 - process_name:一个python字符串表达式,用来表示supervisor进程启动的这个的名称,默认值是%(program_name)s - numprocs:Supervisor启动这个程序的多个实例,如果numprocs>1,则process_name的表达式必须包含%(process_num)s,默认是1 - numprocs_start:一个 int 偏移值,当启动实例的时候用来计算numprocs的值 - priority:权重,可以控制程序启动和关闭时的顺序,权重越低:越早启动,越晚关闭。默认值是999 - autostart:如果设置为 true ,当supervisord启动的时候,进程会自动重启。 - autorestart:值可以是 false 、 true 、unexpected。 false :进程不会自动重启,unexpected:当程序退出时的退出码不是exitcodes中定义的时,进程会重启, true :进程会无条件重启当退出的时候。 - startsecs:程序启动后等待多长时间后才认为程序启动成功 - startretries:supervisord尝试启动一个程序时尝试的次数。默认是3 - exitcodes:一个预期的退出返回码,默认是0,2。 - stopsignal:当收到stop请求的时候,发送信号给程序,默认是TERM信号,也可以是 HUP, INT, QUIT, KILL, USR1, or USR2。 - stopwaitsecs:在操作系统给supervisord发送SIGCHILD信号时等待的时间 - stopasgroup:如果设置为 true ,则会使supervisor发送停止信号到整个进程组 - killasgroup:如果设置为 true ,则在给程序发送SIGKILL信号的时候,会发送到整个进程组,它的子进程也会受到影响。 - user:如果supervisord以root运行,则会使用这个设置用户启动子程序 - redirect_stderr:如果设置为 true ,进程则会把标准错误输出到supervisord后台的标准输出文件描述符。 - stdout_logfile:把进程的标准输出写入文件中,如果stdout_logfile没有设置或者设置为AUTO,则supervisor会自动选择一个文件位置。 - stdout_logfile_maxbytes:标准输出log文件达到多少后自动进行轮转,单位是KB、MB、GB。如果设置为0则表示不限制日志文件大小 - stdout_logfile_backups:标准输出日志轮转备份的数量,默认是10,如果设置为0,则不备份 - stdout_capture_maxbytes:当进程处于stderr capture mode模式的时候,写入FIFO队列的最大bytes值,单位可以是KB、MB、GB - stdout_events_enabled:如果设置为 true ,当进程在写它的stderr到文件描述符的时候,PROCESS_LOG_STDERR事件会被触发 - stderr_logfile:把进程的错误日志输出一个文件中,除非redirect_stderr参数被设置为 true - stderr_logfile_maxbytes:错误log文件达到多少后自动进行轮转,单位是KB、MB、GB。如果设置为0则表示不限制日志文件大小 - stderr_logfile_backups:错误日志轮转备份的数量,默认是10,如果设置为0,则不备份 - stderr_capture_maxbytes:当进程处于stderr capture mode模式的时候,写入FIFO队列的最大bytes值,单位可以是KB、MB、GB - stderr_events_enabled:如果设置为 true ,当进程在写它的stderr到文件描述符的时候,PROCESS_LOG_STDERR事件会被触发 - environment:一个k/v对的list列表 - directory:supervisord在生成子进程的时候会切换到该目录 - umask:设置进程的umask - serverurl:是否允许子进程和内部的HTTP服务通讯,如果设置为AUTO,supervisor会自动的构造一个url |
3.4 重启supervisor
supervisorctl -c /usr/supervisor/supervisord.conf
现在就可以在http://ip:9001/中访问test_one的程序了。
3.5 supervisor开机自动启动
3.5.1 在目录/usr/lib/systemd/system/ 新建文件supervisord.service,并添加配置内
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | [Unit] Description=Process Monitoring and Control Daemon After=rc-local.service nss-user-lookup.target [Service] Type=forking ExecStart=/usr/bin/supervisord -c /usr/supervisor/supervisord.conf ;开机启动时执行 ExecStop=/usr/bin/supervisord shutdown ExecReload=/usr/bin/supervisord reload killMode=process Restart= on -failure RestartSec=42s [Install] WantedBy=multi-user.target |
3.5.2 启动服务
systemctl enable supervisord
3.5.3 验证一下是否为开机启动
systemctl is-enabled supervisord
6.Supervisor周边
4.1 supervisor常用命令
1 2 3 4 5 6 7 8 9 10 | ### 查看supervisorctl支持的命令 # supervisorctl help default commands (type help <topic>): ===================================== add exit open reload restart start tail avail fg pid remove shutdown status update clear maintail quit reread signal stop version ### 查看当前运行的进程列表 # supervisorctl status |
update 更新新的配置到supervisord(不会重启原来已运行的程序)
supervisorctl -c /usr/supervisor/supervisord.conf
唤起命令,格式如上,实际效果如下。
4.2 如果supervisorCPU和内存占用率特别高,导致机器卡死。
尝试注释掉2.4中的web。
https://github.com/Supervisor/supervisor/issues/581
4.3 Unlinking stale socket /tmp/supervisor.sock
解决方案,执行unlink /tmp/supervisor.sock
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· DeepSeek 开源周回顾「GitHub 热点速览」
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了