wait & waitpid 以及子进程传给父进程的信号分析
wait() 和 waitpid()
wait() 系统调用挂起调用进程的执行直到有一个孩子终止。调用 wait(&status) 等价于:waitpid(-1, &status, 0);
waitpid() 系统调用挂起调用进程的执行直到由参数 pid 指定的孩子的状态发生改变。默认情况下,waitpid() 只等待孩子的终止,但是这个行为可能通过 options 参数来改变,具体描述如下。
pid 值可以是:
- < -1
- 表示等待 进程组ID 为 pid 绝对值的进程组内的所有孩子进程。
- -1
- 表示等待任何一个孩子进程。
- 0
- 表示等待其 进程组ID 与调用进程相等的任何孩子进程。
- > 0
- 表示等待 进程ID 与 pid 相等的孩子。
options 的值是下面常量的中的零个或多个进行位或运算的结果:
- WNOHANG
- 如果没有孩子存在立即返回。
- WUNTRACED
- 如果孩子停止(但没有通过 ptrace(2) 追踪)也返回。如果这个选项没有指定,已经停止的将通过 traced 返回其状态。
- WCONTINUED (从 Linux 2.6.10 开始)
- 如果已经停止的孩子因为 SIGCONT 的递送而继续执行也返回。
(只对 Linux 有效的选项,见下面。)
如果 status 不是 NULL,wait() 和 waitpid() 保存状态信息在那个 int 指针指向的内存里。这个整数可以通过下面的宏(它们接受整数自身,而不指向它的指针,wait() 和 waitpid() 需要指针!)进行审视:
- WIFEXITED(status)
- 如果孩子是正常终止则返回真,这说明孩子是调用 exit(3) 或 _exit(2),或者由 main() 函数返回而终止。
- WEXITSTATUS(status)
- 返回孩子的退出状态。这是 status 参数的最低 8 位值,这个值由孩子调用 exit(3) 或 _exit(2) 或者作为 main() return 语句的参数来指定。这个宏只应该在 WIFEXITED 返回真时调用。
- WIFSIGNALED(status)
- 如果孩子进程因为一个信号而终止则返回真。
- WTERMSIG(status)
- 返回导致孩子终止的信号个数。这个宏只应该在 WIFSIGNALED 返回真时调用。
- WCOREDUMP(status)
- 如果孩子进程产生核心转储文件则返回真。这个宏只应该在 WIFSIGNALED 返回真时调用。这个没有在 POSIX.1-2001 里指定并且在一些 UNIX 实现(如 AIX、SunOS)里也没有提供。只在 #ifdef WCOREDUMP ... #endif 内部使用。
- WIFSTOPPED(status)
- 如果孩子进程因为信号而停止则返真;这只有在使用了 WUNTRACED 调用或当孩子被追踪(见 ptrace(2)) 时才可能。
- WSTOPSIG(status)
- 返回导致孩子停止的信号个数。这个宏只应该在 WIFSTOPPED 返回真时调用。
- WIFCONTINUED(status)
- (从 Linux 2.6.10 开始) 如果孩子进程因为 SIGCONT 信号继续执行则返回真
我们运行如下命令,可看到Linux支持的信号列表:
~$ kill -l
1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL
5) SIGTRAP 6) SIGABRT 7) SIGBUS 8) SIGFPE
9) SIGKILL 10) SIGUSR1 11) SIGSEGV 12) SIGUSR2
13) SIGPIPE 14) SIGALRM 15) SIGTERM 17) SIGCHLD
18) SIGCONT 19) SIGSTOP 20) SIGTSTP 21) SIGTTIN
22) SIGTTOU 23) SIGURG 24) SIGXCPU 25) SIGXFSZ
26) SIGVTALRM 27) SIGPROF 28) SIGWINCH 29) SIGIO
30) SIGPWR 31) SIGSYS 34) SIGRTMIN 35) SIGRTMIN+1
36) SIGRTMIN+2 37) SIGRTMIN+3 38) SIGRTMIN+4 39) SIGRTMIN+5
40) SIGRTMIN+6 41) SIGRTMIN+7 42) SIGRTMIN+8 43) SIGRTMIN+9
44) SIGRTMIN+10 45) SIGRTMIN+11 46) SIGRTMIN+12 47) SIGRTMIN+13
48) SIGRTMIN+14 49) SIGRTMIN+15 50) SIGRTMAX-14 51) SIGRTMAX-13
52) SIGRTMAX-12 53) SIGRTMAX-11 54) SIGRTMAX-10 55) SIGRTMAX-9
56) SIGRTMAX-8 57) SIGRTMAX-7 58) SIGRTMAX-6 59) SIGRTMAX-5
60) SIGRTMAX-4 61) SIGRTMAX-3 62) SIGRTMAX-2 63) SIGRTMAX-1
64) SIGRTMAX
列表中,编号为1 ~ 31的信号为传统UNIX支持的信号,是不可靠信号(非实时的),编号为32 ~ 63的信号是后来扩充的,称做可靠信号(实时信号)。不可靠信号和可靠信号的区别在于前者不支持排队,可能会造成信号丢失,而后者不会。
下面我们对编号小于SIGRTMIN的信号进行讨论。
1) SIGHUP
本信号在用户终端连接(正常或非正常)结束时发出, 通常是在终端的控制进程结束时, 通知同一session内的各个作业, 这时它们与控制终端不再关联。
登录Linux时,系统会分配给登录用户一个终端(Session)。在这个终端运行的所有程序,包括前台进程组和后台进程组,一般都属于这个 Session。当用户退出Linux登录时,前台进程组和后台有对终端输出的进程将会收到SIGHUP信号。这个信号的默认操作为终止进程,因此前台进 程组和后台有终端输出的进程就会中止。不过可以捕获这个信号,比如wget能捕获SIGHUP信号,并忽略它,这样就算退出了Linux登录,wget也 能继续下载。
此外,对于与终端脱离关系的守护进程,这个信号用于通知它重新读取配置文件。
2) SIGINT
程序终止(interrupt)信号, 在用户键入INTR字符(通常是Ctrl-C)时发出,用于通知前台进程组终止进程。
3) SIGQUIT
和SIGINT类似, 但由QUIT字符(通常是Ctrl-\)来控制. 进程在因收到SIGQUIT退出时会产生core文件, 在这个意义上类似于一个程序错误信号。
4) SIGILL
执行了非法指令. 通常是因为可执行文件本身出现错误, 或者试图执行数据段. 堆栈溢出时也有可能产生这个信号。
5) SIGTRAP
由断点指令或其它trap指令产生. 由debugger使用。
6) SIGABRT
调用abort函数生成的信号。
7) SIGBUS
非法地址, 包括内存地址对齐(alignment)出错。比如访问一个四个字长的整数, 但其地址不是4的倍数。它与SIGSEGV的区别在于后者是由于对合法存储地址的非法访问触发的(如访问不属于自己存储空间或只读存储空间)。
8) SIGFPE
在发生致命的算术运算错误时发出. 不仅包括浮点运算错误, 还包括溢出及除数为0等其它所有的算术的错误。
9) SIGKILL
用来立即结束程序的运行. 本信号不能被阻塞、处理和忽略。如果管理员发现某个进程终止不了,可尝试发送这个信号。
10) SIGUSR1
留给用户使用
11) SIGSEGV
试图访问未分配给自己的内存, 或试图往没有写权限的内存地址写数据.
12) SIGUSR2
留给用户使用
13) SIGPIPE
管道破裂。这个信号通常在进程间通信产生,比如采用FIFO(管道)通信的两个进程,读管道没打开或者意外终止就往管道写,写进程会收到SIGPIPE信号。此外用Socket通信的两个进程,写进程在写Socket的时候,读进程已经终止。
14) SIGALRM
时钟定时信号, 计算的是实际的时间或时钟时间. alarm函数使用该信号.
15) SIGTERM
程序结束(terminate)信号, 与SIGKILL不同的是该信号可以被阻塞和处理。通常用来要求程序自己正常退出,shell命令kill缺省产生这个信号。如果进程终止不了,我们才会尝试SIGKILL。
17) SIGCHLD
子进程结束时, 父进程会收到这个信号。
如果父进程没有处理这个信号,也没有等待(wait)子进程,子进程虽然终止,但是还会在内核进程表中占有表项,这时的子进程称为僵尸进程。这种情 况我们应该避免(父进程或者忽略SIGCHILD信号,或者捕捉它,或者wait它派生的子进程,或者父进程先终止,这时子进程的终止自动由init进程 来接管)。
18) SIGCONT
让一个停止(stopped)的进程继续执行. 本信号不能被阻塞. 可以用一个handler来让程序在由stopped状态变为继续执行时完成特定的工作. 例如, 重新显示提示符
19) SIGSTOP
停止(stopped)进程的执行. 注意它和terminate以及interrupt的区别:该进程还未结束, 只是暂停执行. 本信号不能被阻塞, 处理或忽略.
20) SIGTSTP
停止进程的运行, 但该信号可以被处理和忽略. 用户键入SUSP字符时(通常是Ctrl-Z)发出这个信号
21) SIGTTIN
当后台作业要从用户终端读数据时, 该作业中的所有进程会收到SIGTTIN信号. 缺省时这些进程会停止执行.
22) SIGTTOU
类似于SIGTTIN, 但在写终端(或修改终端模式)时收到.
23) SIGURG
有”紧急”数据或out-of-band数据到达socket时产生.
24) SIGXCPU
超过CPU时间资源限制. 这个限制可以由getrlimit/setrlimit来读取/改变。
25) SIGXFSZ
当进程企图扩大文件以至于超过文件大小资源限制。
26) SIGVTALRM
虚拟时钟信号. 类似于SIGALRM, 但是计算的是该进程占用的CPU时间.
27) SIGPROF
类似于SIGALRM/SIGVTALRM, 但包括该进程用的CPU时间以及系统调用的时间.
28) SIGWINCH
窗口大小改变时发出.
29) SIGIO
文件描述符准备就绪, 可以开始进行输入/输出操作.
30) SIGPWR
Power failure
31) SIGSYS
非法的系统调用。
在以上列出的信号中,程序不可捕获、阻塞或忽略的信号有:SIGKILL,SIGSTOP
不能恢复至默认动作的信号有:SIGILL,SIGTRAP
默认会导致进程流产的信号有:SIGABRT,SIGBUS,SIGFPE,SIGILL,SIGIOT,SIGQUIT,SIGSEGV,SIGTRAP,SIGXCPU,SIGXFSZ
默认会导致进程退出的信号有:SIGALRM,SIGHUP,SIGINT,SIGKILL,SIGPIPE,SIGPOLL,SIGPROF,SIGSYS,SIGTERM,SIGUSR1,SIGUSR2,SIGVTALRM
默认会导致进程停止的信号有:SIGSTOP,SIGTSTP,SIGTTIN,SIGTTOU
默认进程忽略的信号有:SIGCHLD,SIGPWR,SIGURG,SIGWINCH
此外,SIGIO在SVR4是退出,在4.3BSD中是忽略;SIGCONT在进程挂起时是继续,否则是忽略,不能被阻塞
例子
1 #include<stdio.h> 2 #include<stdlib.h> 3 #include<sys/types.h> 4 #include<sys/wait.h> 5 6 7 8 void pr_exit(int); 9 10 11 12 int main(void) 13 { 14 pid_t pid; 15 int status; 16 17 if((pid=fork())<0){ 18 printf("fork error"); 19 }else if(pid==0){ 20 exit(7); 21 } 22 23 if(wait(&status)!=pid) 24 printf("wait error"); 25 pr_exit(status); 26 27 if((pid=fork())<0) 28 printf("fork error"); 29 else if(pid==0) 30 { 31 int n = 0; 32 //scanf("%d", &n); 33 // printf("child pid=%d\n",getpid()); 34 //printf("child pid=%d\n",getppid()); 35 abort(); 36 } 37 38 39 40 41 if(wait(&status)!=pid) 42 printf("wait error"); 43 44 pr_exit(status); 45 46 if((pid=fork())<0) 47 printf("fork error"); 48 else if(pid==0) 49 //printf(" parent pid=%d\n",getppid()); 50 51 //printf("child pid=%d\n",getpid()); 52 53 status/=0; 54 55 if(wait(&status)!=pid) 56 printf("wait error"); 57 pr_exit(status); 58 exit(0); 59 } 60 void pr_exit(int status) 61 { 62 if(WIFEXITED(status)) 63 printf("normal termination,exitstatus=%d\n",WEXITSTATUS(status)); 64 else if(WIFSIGNALED(status)) 65 printf("abnormal termination,signalstatus=%d\n",WTERMSIG(status), 66 #ifdef WCOREDUMP 67 WCOREDUMP(status)?"(core file generated)":""); 68 #else 69 ""); 70 #endif 71 else if(WIFSTOPPED(status)) 72 printf("child stopped ,signal number=%d\n", WSTOPSIG(status)); 73 }
输出
normal termination,exitstatus=7
abnormal termination,signalstatus=6
abnormal termination,signalstatus=8
子进程结束的方式不同,子进程发送给父进程的信号也不同,6 是6) SIGABRT, 8是8) SIGFPE 在发生致命的算术运算错误时发出. 不仅包括浮点运算错误, 还包括溢出及除数为0等其它所有的算术的错误。
这都是abnormal 的结束
wait和waitpid函数
--------------------
当一个进程正常或异常终止时,内核就向其父进程发送SIGCHLD信号。因为子进程终止是个异步事件,所以这种信号也是内核向父进程发的异步通知。父进程可以选择忽略该信号,或者提供一个该信号发生时即被调用执行的函数(信号处理程序)。对于这种信号的系统默认动作是忽略它。父进程调用wait或waitpid时可能会发生如下情况之一:
如果其所有子进程都还在运行,则阻塞。
如果一个子进程已终止,正等待父进程获取其终止状态,则取得该子进程的终止状态立即返回。
如果它没有任何子进程,则立即出错返回。
#include <sys/wait.h>
pid_t wait(int *statloc);
pid_t waitpid(pid_t pid, int *statloc, int options);
实际应用中,waitpid函数的使用比wait函数更为灵活,因为waitpid函数提供了wait函数没有提供的三个功能:
waitpid可等待一个特定的进程,而wait则返回任一终止子进程的状态。
waitpid提供了一个wait的非阻塞版本(将options设为WNOHANG)。
waitpid支持作业控制(将options设为WUNTRACED和WCONTINUED选项)。
1 #include <stdio.h> 2 #include <unistd.h> 3 #include <errno.h> 4 #include <stdlib.h> 5 #include <sys/wait.h> 6 7 #include <stdio.h> 8 #include <unistd.h> 9 #include <sys/types.h> 10 11 void pr_exit(int status) 12 { 13 if (WIFEXITED(status)) 14 printf("normal termination, exit status = %d\n", 15 WEXITSTATUS(status)); 16 else if (WIFSIGNALED(status)) 17 printf("abnormal termination, signal number = %d%s\n", 18 WTERMSIG(status), 19 #ifdef WCOREDUMP 20 WCOREDUMP(status) ? " (core file generated)" : ""); 21 #else 22 ""); 23 #endif 24 else if (WIFSTOPPED(status)) 25 printf("child stopped, signal number = %d\n", 26 WSTOPSIG(status)); 27 else if (WIFCONTINUED(status)) 28 printf("child continuing...\n"); 29 } 30 31 static void sig_hup(int signo) 32 { 33 printf("SIGHUP received, pid = %d\n", getpid()); 34 } 35 36 static void sig_tstp(int signo) 37 { 38 printf("SIGTSTP received, pid = %d\n", getpid()); 39 } 40 41 static void pr_ids(char *name) 42 { 43 printf("%s: pid = %d, ppid = %d, pgrp = %d, tpgrp = %d\n", 44 name , getpid(), getppid(), getpgrp(), tcgetpgrp(STDIN_FILENO)); 45 fflush(stdout); 46 } 47 48 int main(void) 49 { 50 char c; 51 pid_t pid; 52 int status; 53 54 pr_ids("parent"); 55 if ((pid = fork()) < 0) 56 { 57 perror("fork error"); 58 return 0; 59 } 60 else if (pid > 0) 61 { 62 sleep(5); 63 printf("child process starts %d\n", pid); 64 printf("wait for child process to end\n" ); 65 waitpid(pid, &status, WUNTRACED |WCONTINUED); 66 printf("child process ends\n" ); 67 68 pr_exit(status); 69 kill(pid, SIGCONT); 70 waitpid(pid, &status, WUNTRACED|WCONTINUED ); 71 pr_exit(status); 72 exit(0); 73 } 74 else// child proc 75 { 76 sleep(10); 77 pr_ids("child 1"); 78 // signal(SIGHUP, sig_hup); 79 // signal(SIGTSTP, sig_tstp); 80 kill(getpid(), SIGTSTP); 81 } 82 83 return 0; 84 }
输出结果:
parent: pid = 8116, ppid = 4151, pgrp = 8116, tpgrp = 8116
child process starts 8117
wait for child process to end
child 1: pid = 8117, ppid = 8116, pgrp = 8116, tpgrp = 8116
child process ends
child stopped, signal number = 20
child continuing...
可见抓到了stopped 和continue 信号
另外,对于处理SIG_CHLD信号的选择,使用
1 void sig_chld(int signo) 2 { 3 pid_t pid; 4 int stat; 5 6 while((pid = waitpid(-1, &stat, WNOHANG)) > 0){ 7 printf("child %d terminated\n", pid); 8 } 9 return;
原因是,一是要有循环,可以避免SIG_CHILD信号丢失的情况,而是要使用WNOHANG选项,来避免waitpid一直等待。。
使用waitpid而不适用wait的原因是wait无法指定NOHANG,使用while循环的原因是处理信号不被缓存的情况
当有多个子进程的SIGCHLD信号到达父进程的时候,如果父进程用wait等待,那么父进程在处理第一个达到的SIGCHLD信号的时候,其他的SIGCHLD信号被堵塞,而且信号不被缓存,这样就会导致信号丢失,这样会产生很多的僵尸进程。。解决办法是父进程用waitpid来等待子进程信号。。。
正好看到有人问这样一个问题
看unix网络编程第一卷的时候,碰到书上这样一个例子:
一个并发服务器,
每一个客户端连接服务器就fork一个子进程.书上讲到当同时有n多个客户端断开连接时,
服务器端同时有n多个子进程终止,
这时候内核同时向父进程发送n多个sigchld信号.它的sigchld信号处理
函数如下:
void sig_chld(int
signo)
{
pid_t pid;
int stat;
while((pid = waitpid(-1, &stat, WNOHANG)) > 0){
printf("child %d terminated\n", pid);
}
return;
}
我的问题是:既然sigchld是不可靠的信号,进程就不可能对sigchld进行排队,
直接丢弃了sigchld信号(当进程注册信号的时候,发现已有sigchld注册进未决信号,
因为内核同时发送多个sigchld).请问大家上面的代码是如何保证不产生僵尸进程的.谢谢!
超清晰的解答,来自与chinaunix论坛的flw大版主。。。:
根本就不需要找回来! 好比有五个进程, 不妨分别称为 p1 p2 p3 p4 p5, 一开始 p1 结束了,发了一个 SIGCHLD(s1), 这时父进程可能空闲了,于是开始处理这个信号,假设处理的过程中 p2 又结束了,又发了一个 SIGCHLD(s2), 这时候已经有两个信号了(一个正在处理,一个待处理),这时如果 p3 又结束了,那么它发的那个 SIGCHLD(s3) 势必会丢失, 丢失了怎么办? 没关系,因为那个信号处理函数是个循环嘛, 所以 while(waitpid()) 的时候,会把 p1 p2 p3 都处理的。 即使是很不幸,因为十分凑巧的原因,p3 没有被回收,导致变成僵尸进程了,也没关系, 因为还有 p4 p5 嘛,等到 p4 或者 p5 结束的时候, 又会再一次调用 while(waitpid()),到时候虽说这个 while(waitpid()) 是由 p4/p5 引起的,但是它也会一并把 p3 也处理的,因为它是个循环嘛! 如果还搞不懂,你就再看看 waitpid 的 man。 记住一点: waitpid 和 SIGCHLD 没关系,即使是某个子进程对应的 SIGCHLD 丢失了,只要父进程在任何一个时刻调用了 waitpid,那么这个进程还是可以被回收的。 哎呀呀,简直费劲死了,其实说白了,就是一个“生产者-消费者”问题。 子进程结束的时候,系统“生产”出一个僵尸进程, 同时用 SIGCHLD 通知父进程来“消费”这个僵尸进程, 即使是 SIGCHLD 丢失了,没有来得及消费, 但是只要有一次消费,就会把所有的僵尸进程都处理光光! .(我再说一遍:因为,while(waitpid()) 是个循环嘛!)