linux信号
信号的基本概念
为了了解信号,先从一个熟悉的场景开始说起:
1. 用户输入命令,在shell下启动一个前台进程。
2. 当用户按下Ctrl-C,这个键盘输入将产生一个硬件中断。
3. 如果CPU正在执行这个进程的代码,则该进程的用户空间代码暂停执行,CPU从用户态切换到内核态处理硬件中断。
4. 终端驱动程序(内核的一部分)将Ctrl-C解释成一个SIGINT信号,记在该进程的PCB中(也可以说发送了一个SIGINT信号给该进程)。
5. 当某个时刻要从内核返回到该进程的用户空间代码继续执行之前,首先处理PCB中记录的信号,发现有一个SIGINT信号待处理,而这个信号的默认处理动作是终止进程,所以直接终止进程而不再返回它的用户空间代码执行。
Ctrl-C产生的信号只能发送给前台进程,如果要让一个进程处于后台运行,可以在一个命令后面加个&,这样shell就不必等待进程结束就可以接受新的命令、启动新的进程。shell可以同时运行一个前台进程和任意多个后台进程,只有前台进程才能接收到像Ctrl-C这种控制键产生的信号。前台进程在运行的过程中用户可以随时按下Ctrl-C而产生一个信号,也就是说该进程的用户空间代码执行到任何的地方都有可能收到SIGINT信号而终止,所以信号相对于进程的控制流程来说是异步的。
在linux中可以使用kill -l命令查看系统定义的信号列表:
每个信号都有一个编号和一个宏定义名称,这些宏定义可以在signal.h中找到,例如其中一定有这样的一个定义:#define SIGINT 2。标号34以上的是信号,这里只讨论34以下的编号,不讨论实时信号。下面是一张表说明这些信号在什么条件下产生,默认的处理动作是什么。
上面表中的第一列是:各信号的宏定义的名称。
第二列的意思是:各信号的编号。
第三列的意思是:默认处理动作,其中Term表示终止当前进程,Core表示终止当前进程并且Core Dump,Ign表示忽略信号,Stop表示停止当前进程,Cont表示继续执行先前停止的进程。
第四列的意思是:表明什么条件下产生该信号。
说到了什么条件下产生该信号,下面说一下信号产生的主要条件:
1. 用户在终端按下某些键时,终端驱动程序(内核的一部分)会发送信号给前台进程。例如Ctrl-C产生SIGINT信号,Ctrl-\产生SIGQUIT信号,Ctrl-Z产生SIGTSTP信号。
2. 硬件异常产生信号,这些条件由硬件检测到并通知内核,然后内核向当前进程发送适当的信号。例如当前进程执行了除以0的指令,CPU的运算单元会产生异常,内核将这个异常解释为SIGFPE信号发送给进程。再比如当前进程访问了非法内存地址,MMU会产生异常,内核将这个异常解释为SIGSEGV信号发送给进程。
3. 一个进程调用kill函数可以发送信号给另一个进程。
4. 可以用kill命令发送信号给某个进程,kill命令也是调用kill函数实现的,如果不明确指定信号的话,则发送SIGTERM信号,该信号的默认动作是终止进程。
5. 当内核检测到某种软件条件发生时,也可以通过信号通知进程。例如闹钟超时产生SIGALRM信号;向读端已关闭的管道写数据时产生SIGPIPE信号。
如果不想按照默认动作处理信号,用户程序可以调用sigaction函数告诉内核如果处理某种信号,可选的处理动作有一下三种:
1. 忽略信号
2. 执行该信号的默认动作
3. 提供一个信号处理函数,要求内核在处理该信号时切换到用户态执行这个处理函数,这种方式成为捕获一个信号。
产生信号
通过终端按键产生信号
SIGINT的默认处理动作是终止进程,SIGQUIT的默认处理动作是终止进程并且Core Dump,下面来验证一下:
首先解释什么是Core Dump:
当一个进程要异常终止的时候,可以选择把进程的用户空间内存数据全部保存到磁盘上,文件名通常为core,这叫做Core Dump。
进程异常终止通常是Bug,比如非法内存访问导致段错误,事后可以用调试器来检查core文件以查清楚错误的原因,这个叫做Post-mortem Debug。
一个进程允许产生多大的core文件取决于进程的Resource Limit(这个信息保存在PCB中)。
默认是不允许产生core文件的,因为core文件可能包含用户密码等敏感信息,不安全。在开发调试阶段可以用ulimit命令改变这个限制,允许产生core文件。
首先用ulimit命令改变shell进程的Resource limit,允许core文件最大为1024K:
$ ulimit -c 1024
然后写一个死循环程序:
#include <unistd.h> int main(void) { while(1); return 0; }
前台运行这个程序,然后在终端输入Ctrl-C或者Ctrl-\:
ulimit命令改变了shell进程的Resource Limit,a.out进程的PCB由shell进程复制而来,所以也具有和shell进程相同的Resource Limit值。这样就可以产生Core Dump了。
调用系统函数向进程发信号
仍然用上面的死循环程序为例,首先在后台执行这个程序,然后用kill命令给它发送SIGSEGV信号:
7940是a.out进程的id,之所以要再次回车才显示Segmentation fault,是因为在7940进程终止掉之前已经回到了shell提示符等待用户输入下一条命令,shell不希望Segmentation fault信息和用户的输入交错在一起,所以等待用户输入下一条命令之后才显示(这里的下一条命令可以是一个回车符号也可以是一个ls命令)。
指定某种信号的kill命令可以有多种写法,上面的命令还可以写成kill -SEGV 7940或者kill -11 7940,因为11是信号SIGSEGV的编号。以往遇到的段错误都是由非法内存访问产生的,而这个程序本身没有错误,给它发送SIGSEGV也能产生段错误。
kill命令是调用kill函数实现的,kill韩式可以给一个指定的进程发送指定的信号。raise函数可以给当前的进程(调用raise的进程)发送指定的信号(自己给自己发送信号)
#include <signal.h> int kill(pid_t pid, int signo); int raise(int signo); //这两个函数都是成功返回0,错误返回-1
abort函数使当前进程(调用进程)接收到SIGABRT信号而异常终止(自己给自己发送SIGABRT信号)。
#include <stdlib.h> void abort(void); //就像exit函数一样,abort函数总会成功的,所以没有返回值
由软件条件产生的信号
SIGPIPE是一种由软件条件产生的信号,SIGALRM是由alarm函数产生的信号。
#include <unistd.h> unsigned int alarm(unsigned int seconds);
调用alarm函数可以设定一个闹钟,也就是告诉内核在seconds秒之后给当前进程发送SIGALRM信号,该信号的默认处理动作是终止当前进程。
这个函数的返回值是0或者以前设定的闹钟时间还余下的秒数。
打个比方,某人要睡一会,设定闹钟为30分钟以后响,20分钟以后被吵醒了,还想多睡一会儿,于是重新设定闹钟为15分钟以后响。那么以前设定的闹钟时间还余下的时间就是10分钟。
如果seconds的值为0,表示取消以前设定的闹钟,函数的返回值仍然是以前设定的闹钟时间还余下的秒数。
#include <unistd.h> #include <stdio.h> int main(void) { int count; alarm(1); for(count = 0; 1; count++) printf("count = %d ", count); return 0; }
这个程序的作用是1秒钟之内不停地数数,1秒到了就被SIGALRM信号终止。main进程终止的时间可能是该main函数代码中的任意一行语句。
阻塞信号
信号在内核中的表示
以上讨论了信号产生的各种原因,而实际执行信号的处理动作称为信号递达(Delivery)。信号从产生到递达之间的状态,称为信号未决(pending)。
进程可以选择阻塞(Block)某个信号,被阻塞的信号产生时将保持在未决状态,直到进程解除对此信号的阻塞,才执行递达的动作。
注意,阻塞和忽略是不同的,只要信号被阻塞就不会递达,而忽略是在递达之后可选的一种处理动作。信号在内核中的表示可以看作是这样的:
每个信号都有两个标志位分别表示阻塞和未决,还有一个函数指针表示该信号的处理动作。信号产生时,内核在进程控制块(PCB)中设置该信号的未决标志,直到信号递达才清除该标志。进程在处理完中断,要从内核返回到该进程的用户空间代码继续执行前,要查看进程的PCB中记录的信号,看看有没有待处理的信号,其实看的就是pending信号集。
在上面的图中:
1. SIGHUP信号未阻塞也未产生过,当它递达时执行默认处理动作。
2. SIGINT信号产生过,但正在被阻塞,所以暂时不能递达。虽然它的处理动作是忽略,但在没有解除阻塞之前不能忽略这个信号。因为进程仍有机会改变处理动作之后再解除阻塞。
3. SIGQUIT信号未产生过,一旦产生SIGQUIT信号将被阻塞,它的处理动作是用户自定义的函数sighandler。
如果在进程解除对某信号的阻塞之前这种信号产生过多次,POSIX.1允许系统递送该信号一次或者多次。
Linux是这样实现的:某个常规信号在递达之前产生多次的话,只计一次。但是实时信号在递达之前产生多次的话,可以依次放在一个队列里。
本文不讨论实时信号,所以每个信号只有一个bit位的未决标志,非0即1,不记录该信号产生了多少次(所以,内核在返回进程用户空间代码继续执行前,就是检查这个未决信号集,确定哪些信号需要处理),阻塞信号也是这样表示的。
因此,信号的未决标志和阻塞标志可以用相同的数据类型sigset_t来存储,sigset_t称为信号集。这个类型可以表示每个信号的“有效“或者”无效“状态。在阻塞信号集中”有效“和”无效“的含义是该信号是否被阻塞,在未决信号集中”有效“和”无效“的含义是该信号是否处于未决状态。
阻塞信号集也叫做当前进程的信号屏蔽字(Signal Mask),这里的”屏蔽“应该理解为阻塞而不是忽略。每一个进程都有一个未决信号集和阻塞信号集。
信号集的操作函数
sigset_t类型对于每种信号用一个bit表示”有效“或者”无效“状态,至于这个类型内部如何存储这些bit,则依赖于系统实现。下面的一些函数可以用来操作sigset_t变量。
#include <signal.h> //初始化set所指向的信号集,使其中的所有信号对应的bit位清零 //表示信号集中不包含任何有效信号 int sigemptyset(sigset_t *set); //初始化set所指向的信号集,使其中所有信号的对应bit置位 //表示该信号集的有效信号包括系统支持的所有信号 int sigfillset(sigset_t *set); int sigaddset(sigset_t *set, int signo); int sigdelset(sigset_t *set, int signo); //这个函数是一个布尔函数,用于判断一个信号集的有效信号中是否包含某种信号 //若包含则返回1,不包含则返回0,出错返回-1 int sigismember(const sigset_t *set, int signo);
注意,使用sigset_t类型变量之前,一定要调用sigemptyset或者sigfillset做初始化,使信号集处于确定的状态,之后才可以调用sigaddset和sigdelset在该信号集中添加或者删除某种有效信号。
这里的signo就是利用kill -l命令查看到的信号的编号,在Ubuntu14.04中,取值范围是1~64。所以当前系统的sigset_t是64位的,每位代表一个信号是否有效。
注意这里的sigset_t根据平台不同,定义为不同的数据类型,能表示的位的数目也不同。
实现:
如果实现的信号的数目少于一个整型所包含的位数,则可用一位代表一个信号的方法实现信号集。如果某一种实现有31中信号,那么就可以用32位的整型类型表示sigset_t。
sigemptyset函数将整型设置为0,sigfillset函数将整型中的各位都设置为1。这两个函数可以在<signal.h>头文件中实现为宏:
#define sigemptyset (*(ptr) = 0) #define sigfillset (*(ptr) = ~(sigset_t)0, 0)
注意:sigfillset函数除了设置信号集中各位为1外,sigfill必须返回0,所以使用C语言的逗号运算符,它将逗号运算符后的值作为表达式的返回值。
使用这种实现,sigaddset开启一位(将该位设置为1),sigdelset关闭一位(将该位设置为0);sigismember测试一个指定的位。因为没有编号为0的信号,但是sigset_t有第0位,所以从信号中减去1得到要处理的位的编号数。下面各处三个函数的实现:
#include <signal.h> #include <errno.h> #define SIGBAD(signo) ((signo) <= 0 || (signo) >= NSIG) int sigaddset(sigset_t *set, int signo) { if(SIGBAD(signo)) { errno = EINVAL; return -1; } //turn bit on *set |= 1 << (signo -1); return 0; } int sigdelset(sigset_t *set, int signo) { if(SIGBAD(signo)) { errno = EINVAL; return -1; } //turn bit off *set &= ~(1 << (signo - 1)); return 0; } int sigismember(const sigset_t *set, int signo) { if(SIGBAD(signo)) { errno = EINVAL; return -1; } return ((*set & (1 << (signo -1))) != 0); }
也可以将这三个函数在<signal.h>中实现为各一行的宏,但是POSIX.1要检查信号参数的有效性,如果无效要设置errno,在宏中实现这一点比函数更难。
sigprocmask函数的使用
调用该函数可以读取或者更改进程的信号屏蔽字,也就是阻塞信号集。
#include <signal.h> int sigprocmask(int how, const sigset_t *set, sigset_t *oset); //返回值:若成功则为0,若出错则为-1
1. 如果oset是非空指针,则读取进程的当前信号屏蔽字,通过oset参数传出。
2. 如果set是非空指针,则更改进程的信号屏蔽字,参数how指示如何更改。
3. 如果oset和set都是非空的指针,则先将进程原来的信号屏蔽字备份到oset里,然后根据set和how参数更改进程的信号屏蔽字。
假设当前信号屏蔽字位mask,下表说明了how参数可选的值:
如果调用sigprocmask解除了对当前若干个未决信号的阻塞,则在sigprocmask返回前,至少将其中一个信号递达。
sigpending函数的使用
#include <signal.h> //读取当前进程的未决信号集,通过set参数传出 //调用成功则返回0,出错则返回-1 int sigpending(sigset_t *set);
下面利用刚刚介绍的几个函数做一个实验:
#include <signal.h> #include <stdio.h> #include <unistd.h> void pr_sigset(const sigset_t *set) { int i; for(i = 1; i < 32; i++) { if(sigismember(set, i) == 1) putchar('1'); else putchar('0'); } puts(" "); } int main(void) { sigset_t s, p; sigemptyset(&s); sigaddset(&s, SIGINT); sigprocmask(SIG_BLOCK, &s, NULL); while(1) { sigpending(&p); pr_sigset(&p); sleep(1); } return 0; }
程序运行的时候,每一秒种把各个信号的未决状态打印一遍,由于代码中阻塞了SIGINT信号,所以按下Ctrl-C的时候会使SIGINT信号处于未决状态,但是按下Ctrl-\仍然可以终止程序,因为SIGQUIT信号没有被阻塞。
信号捕捉
内核如何实现信号的捕捉
如果信号的处理动作是用户自定义的函数,在信号递达时就调用这个函数,这称为捕捉信号。由于信号处理函数的代码是在用户空间的,所以处理的过程比较复杂,举个例子:
1. 用户程序注册了SIGQUIT信号的处理函数sighandler。
2. 当前正在执行main函数,这时发生了中断或异常切换到内核态。
3. 在中断处理完毕后要返回用户态的main函数之前检查到有信号SIGQUIT递达。
4. 内核决定返回用户态后不是回复main函数的上下文继续执行,而是执行sighandler函数,sighandler和main函数使用不同的堆栈空间,他们之间不存在调用和被调用的关系,是两个独立的控制流程。
5. sighandler函数返回后自动执行特殊的系统调用sigreturn再次进入内核态。
6. 如果没有新的信号要递达,这次再返回用户态就是恢复main函数的上下文继续执行了。
注:第6步中,在返回用户态main函数之前都要检查是否用信号递达。
sigaction函数
函数原型与简介:
#include <signal.h> //sigaction读取或者修改与指定信号相关联的处理动作 //调用成功则返回0,出错返回-1,signo是指定信号的编号 //如果act指针非空,则根据act修改信号的处理动作 //如果oact指针非空,则通过oact传出该信号原来的处理动作 int sigaction(int signo, const struct sigaction *act, struct sigaction *oack);
act和oact都是struct sigaction类型的结构体。
struct sigaction { //addr of sinal handler, or SIG_IGN, or SIG_DFL void (*sa_handler) (int); //additional signals to block sigset_t sa_mask; //signal options int sa_flags; //alternate handler void (*sa_sigaction) (int, siginfo_t *, void *); };
将sa_handler赋值为常数SIG_IGN传给sigaction表示忽略信号,赋值为常数SIG_DFL表示执行系统默认动作,赋值为一个函数指针表示用自定义函数捕捉信号或者说向内核注册了一个信号处理函数,该函数返回值为void,可以带一个int参数,通过参数可以得知当前信号的编号,这样就可以用同一个函数处理多种信号。显然这也是一个回调函数,不是被main函数调用的,而是被系统所调用。
当某个信号的处理函数被调用的时候,内核自动将当前信号加入进程的信号屏蔽字,当信号处理函数返回时自动恢复原来的信号屏蔽字,这样就保证了在处理某个信号时,如果这种信号再次产生,那么他会被阻塞到当前处理结束为止。
如果在调用信号处理函数时,除了当前信号被自动屏蔽外,还想自动屏蔽一些另外的信号,则用sa_mask字段说明这些需要额外屏蔽的信号,当信号处理函数返回时自动恢复原来的信号屏蔽字。
sa_flags字段包含一些选项,这里把sa_flags统一设置为0,sa_sigaction是实时信号处理函数。
pause函数
#include <unistd.h> //pause函数使调用进程挂起直到有信号递达。 //如果信号的处理动作是终止进程,则进程终止,pause函数没有机会返回; //如果信号的处理动作是忽略,则进程继续处于挂起状态,pause不返回; //如果信号的处理动作是捕捉,则调用了信号处理函数之后pause返回-1,errno设置为EINTR,所以pause只有出错的返回值 //错误码EINTR表示“被信号中断”。 int pause(void);
下面我们用alarm
和pause
实现sleep(3)
函数,称为mysleep
。
#include <unistd.h> #include <signal.h> #include <stdio.h> void sig_alrm(int signo) { /* nothing to do */ } unsigned int mysleep(unsigned int nsecs) { struct sigaction newact, oldact; unsigned int unslept; newact.sa_handler = sig_alrm; sigemptyset(&newact.sa_mask); newact.sa_flags = 0; sigaction(SIGALRM, &newact, &oldact); alarm(nsecs); pause(); unslept = alarm(0); sigaction(SIGALRM, &oldact, NULL); return unslept; } int main(void) { while(1){ mysleep(2); printf("Two seconds passed\n"); } return 0; }
1. main函数调用mysleep函数,后者调用sigaction注册了SIGALRM信号的处理函数sig_alrm。
2. 调用alarm(nsecs)设定闹钟,告诉内核,nsecs时间之后,给我发送SIGALRM信号。
3. 调用pause等待,内核切换到别的进程运行。
4. nsecs秒之后,闹钟超时,内核发SIGALRM给这个进程。
5. 从内核态返回这个进程的用户态之前处理未决信号,发现有SIGALRM信号,其处理函数是sig_alrm。
6. 切换到用户态执行sig_alrm函数,进入sig_alrm函数时SIGALRM信号被自动屏蔽,从sig_alrm函数返回时SIGALRM信号自动解除屏蔽。然后自动执行系统调用sigreturn再次进入内核,再返回用户态继续执行进程的主控制流程(main函数调用的mysleep函数)。
7. pause函数返回-1,然后调用alarm(0)取消闹钟,调用sigaction恢复SIGALRM信号以前的处理动作。
注意:虽然sig_alrm函数什么都没干,但还是得注册作为SIGALRM的处理函数,因为SIGALRM信号的默认处理是终止进程,这也是在mysleep函数返回时要恢复SIGALRM信号原来的sigaction的原因。此外,mysleep函数的返回值表示“未睡到”的时间,即unslept,当尚未计时到nsecs而pause函数先被其他信号处理函数所中断返回,在外界看来就是在sleep期间被其他信号处理函数中断了,则mysleep返回非0值,即unslept。
可重入函数
当捕捉到信号时,不论进程的主控制流程当前执行到哪儿,都会先跳到信号处理函数中执行,从信号处理函数返回后再继续执行主控制流程(是系统的中断打断了主控制流程,这时必须的,因为它是中断,但是中断后并不直接返回原来的中断点,而是执行信号处理函数)。
信号处理函数是一个单独的控制流程,因为它和主控制流程是异步的,二者不存在调用和被调用的关系,并且使用不同的堆栈空间。引入了信号处理函数使得一个进程具有多个控制流程,如果这些控制流程访问相同的全局资源(全局变量、硬件资源等),就有可能出现冲突,如下面的例子所示。
main函数调用insert函数向一个链表head中插入节点node1,插入操作分为两步,刚做完第一步的时候,因为硬件中断使进程切换到内核,再次回用户态之前检查到有信号待处理,于是切换到sighandler函数,sighandler也调用insert函数向同一个链表head中插入节点node2,插入操作的两步都做完之后从sighandler返回内核态,再次回到用户态就从main函数调用的insert函数中继续往下执行,先前做第一步之后被打断,现在继续做完第二步。结果是,main函数和sighandler先后向链表中插入两个节点,而最后只有一个节点真正插入链表中了。
像上例这样,insert函数被不同的控制流程调用,有可能在第一次调用还没返回时就再次进入该函数,这称为重入,insert函数访问一个全局链表,有可能因为重入而造成错乱,像这样的函数称为不可重入函数,反之,如果一个函数只访问自己的局部变量或参数,则称为可重入(Reentrant)函数。想一下,为什么两个不同的控制流程调用同一个函数,访问它的同一个局部变量或参数就不会造成错乱?
如果一个函数符合以下条件之一则是不可重入的:
1. 调用了malloc或free,因为malloc也是用全局链表来管理堆的。
2. 调用了标准I/O库函数。标准I/O库的很多实现都以不可重入的方式使用全局数据结构。
sig_atomic_t类型与volatile限定符
在上面的例子中,main
和sighandler
都调用insert
函数则有可能出现链表的错乱,其根本原因在于,对全局链表的插入操作要分两步完成,不是一个原子操作,假如这两步操作必定会一起做完,中间不可能被打断,就不会出现错乱了。
现在想一下,如果对全局数据的访问只有一行代码,是不是原子操作呢?比如,main
和sighandler
都对一个全局变量赋值,会不会出现错乱呢?比如下面的程序:
long long a; int main(void) { a=5; return 0; }
带调试信息编译,然后带源代码反汇编:
$ gcc main.c -g $ objdump -dS a.out
其中main函数的指令中有:
a=5; 8048352: c7 05 50 95 04 08 05 movl $0x5,0x8049550 8048359: 00 00 00 804835c: c7 05 54 95 04 08 00 movl $0x0,0x8049554 8048363: 00 00 00
虽然C代码只有一行,但是在32位机上对一个64位的long long
变量赋值需要两条指令完成,因此不是原子操作。同样地,读取这个变量到寄存器需要两个32位寄存器才放得下,也需要两条指令,不是原子操作。请读者设想一种时序,main
和sighandler
都对这个变量a
赋值,最后变量a
的值发生错乱。
如果上述程序在64位机上编译执行,则有可能用一条指令完成赋值,因而是原子操作。如果a
是32位的int
变量,在32位机上赋值是原子操作,在16位机上就不是。如果在程序中需要使用一个变量,要保证对它的读写都是原子操作,应该采用什么类型呢?为了解决这些平台相关的问题,C标准定义了一个类型sig_atomic_t
,在不同平台的C语言库中取不同的类型,例如在32位机上定义sig_atomic_t
为int
类型。
在使用sig_atomic_t
类型的变量时,还需要注意另一个问题。看如下的例子:
#include <signal.h> sig_atomic_t a = 0; int main(void) { /* register a sighandler */ while(!a); /* wait until a changes in sighandler */ /* do something after signal arrives */ return 0; }
为了简洁,这里只写了一个代码框架来说明问题。在main
函数中首先要注册某个信号的处理函数sighandler
,然后在一个while
死循环中等待信号发生,如果有信号递达则执行sighandler
,在sighandler
中将a
改为1,这样再次回到main
函数时就可以退出while
循环,执行后续处理。用上面的方法编译和反汇编这个程序,在main
函数的指令中有:
/* register a sighandler */ while(!a); /* wait until a changes in sighandler */ 8048352: a1 3c 95 04 08 mov 0x804953c,%eax 8048357: 85 c0 test %eax,%eax 8048359: 74 f7 je 8048352 <main+0xe>
将全局变量a
从内存读到eax
寄存器,对eax
和eax
做AND运算,若结果为0则跳回循环开头,再次从内存读变量a
的值,可见这三条指令等价于C代码的while(!a);
循环。如果在编译时加了优化选项,例如:
$ gcc main.c -O1 -g $ objdump -dS a.out
则main
函数的指令中有:
8048352: 83 3d 3c 95 04 08 00 cmpl $0x0,0x804953c /* register a sighandler */ while(!a); /* wait until a changes in sighandler */ 8048359: 74 fe je 8048359 <main+0x15>
第一条指令将全局变量a
的内存单元直接和0比较,如果相等,则第二条指令成了一个死循环,注意,这是一个真正的死循环:即使sighandler
将a
改为1,只要没有影响Zero标志位,回到main
函数后仍然死在第二条指令上,因为不会再次从内存读取变量a
的值。
是编译器优化得有错误吗?不是的。设想一下,如果程序只有单一的执行流程,只要当前执行流程没有改变a
的值,a
的值就没有理由会变,不需要反复从内存读取,因此上面的两条指令和while(!a);
循环是等价的,并且优化之后省去了每次循环读内存的操作,效率非常高。所以不能说编译器做错了,只能说编译器无法识别程序中存在多个执行流程。之所以程序中存在多个执行流程,是因为调用了特定平台上的特定库函数,比如sigaction
、pthread_create
,这些不是C语言本身的规范,不归编译器管,程序员应该自己处理这些问题。C语言提供了volatile
限定符,如果将上述变量定义为volatile sig_atomic_t a=0;
那么即使指定了优化选项,编译器也不会优化掉对变量a内存单元的读写。
对于程序中存在多个执行流程访问同一全局变量的情况,volatile
限定符是必要的,此外,虽然程序只有单一的执行流程,但是变量属于以下情况之一的,也需要volatile
限定:
-
变量的内存单元中的数据不需要写操作就可以自己发生变化,每次读上来的值都可能不一样
-
即使多次向变量的内存单元中写数据,只写不读,也并不是在做无用功,而是有特殊意义的
什么样的内存单元会具有这样的特性呢?肯定不是普通的内存,而是映射到内存地址空间的硬件寄存器,例如串口的接收寄存器属于上述第一种情况,而发送寄存器属于上述第二种情况。
sig_atomic_t
类型的变量应该总是加上volatile
限定符,因为要使用sig_atomic_t
类型的理由也正是要加volatile
限定符的理由。
竞态条件与sigsuspend函数
现在重新审视例上面的 “mysleep”,设想这样的时序:
-
注册
SIGALRM
信号的处理函数。 -
调用
alarm(nsecs)
设定闹钟。 -
内核调度优先级更高的进程取代当前进程执行,并且优先级更高的进程有很多个,每个都要执行很长时间
-
nsecs
秒钟之后闹钟超时了,内核发送SIGALRM
信号给这个进程,处于未决状态。 -
优先级更高的进程执行完了,内核要调度回这个进程执行。
SIGALRM
信号递达,执行处理函数sig_alrm
之后再次进入内核。 -
返回这个进程的主控制流程,
alarm(nsecs)
返回,调用pause()
挂起等待。 -
可是
SIGALRM
信号已经处理完了,还等待什么呢?
出现这个问题的根本原因是系统运行的时序(Timing)并不像我们写程序时所设想的那样。虽然alarm(nsecs)
紧接着的下一行就是pause()
,但是无法保证pause()
一定会在调用alarm(nsecs)
之后的nsecs
秒之内被调用。由于异步事件在任何时候都有可能发生(这里的异步事件指出现更高优先级的进程),如果我们写程序时考虑不周密,就可能由于时序问题而导致错误,这叫做竞态条件(Race Condition)。
如何解决上述问题呢?读者可能会想到,在调用pause
之前屏蔽SIGALRM
信号使它不能提前递达就可以了。看看以下方法可行吗?
-
屏蔽
SIGALRM
信号; -
alarm(nsecs);
-
解除对
SIGALRM
信号的屏蔽; -
pause();
从解除信号屏蔽到调用pause
之间存在间隙,SIGALRM
仍有可能在这个间隙递达。要消除这个间隙,我们把解除屏蔽移到pause
后面可以吗?
-
屏蔽
SIGALRM
信号; -
alarm(nsecs);
-
pause();
-
解除对
SIGALRM
信号的屏蔽;
这样更不行了,还没有解除屏蔽就调用pause
,pause
根本不可能等到SIGALRM
信号。要是“解除信号屏蔽”和“挂起等待信号”这两步能合并成一个原子操作就好了,这正是sigsuspend
函数的功能。sigsuspend
包含了pause
的挂起等待功能,同时解决了竞态条件的问题,在对时序要求严格的场合下都应该调用sigsuspend
而不是pause
。
#include <signal.h> int sigsuspend(const sigset_t *sigmask);
和pause
一样,sigsuspend
没有成功返回值,只有执行了一个信号处理函数之后sigsuspend
才返回,返回值为-1,errno
设置为EINTR
。
调用sigsuspend
时,进程的信号屏蔽字由sigmask
参数指定,可以通过指定sigmask
来临时解除对某个信号的屏蔽,然后挂起等待,当sigsuspend
返回时,进程的信号屏蔽字恢复为原来的值,如果原来对该信号是屏蔽的,从sigsuspend
返回后仍然是屏蔽的。
以下用sigsuspend
重新实现mysleep
函数:
unsigned int mysleep(unsigned int nsecs) { struct sigaction newact, oldact; sigset_t newmask, oldmask, suspmask; unsigned int unslept; /* set our handler, save previous information */ newact.sa_handler = sig_alrm; sigemptyset(&newact.sa_mask); newact.sa_flags = 0; sigaction(SIGALRM, &newact, &oldact); /* block SIGALRM and save current signal mask */ sigemptyset(&newmask); sigaddset(&newmask, SIGALRM); sigprocmask(SIG_BLOCK, &newmask, &oldmask); alarm(nsecs); suspmask = oldmask; sigdelset(&suspmask, SIGALRM); sigsuspend(&suspmask); unslept = alarm(0); sigaction(SIGALRM, &oldact, NULL); /* reset previous action */ /* reset signal mask, which unblocks SIGALRM */ sigprocmask(SIG_SETMASK, &oldmask, NULL); return(unslept); }
如果在调用mysleep
函数时SIGALRM
信号没有屏蔽:
-
调用
sigprocmask(SIG_BLOCK, &newmask, &oldmask);
时屏蔽SIGALRM
。 -
调用
sigsuspend(&suspmask);
时解除对SIGALRM
的屏蔽,然后挂起等待待。 -
SIGALRM
递达后suspend
返回,自动恢复原来的屏蔽字,也就是再次屏蔽SIGALRM
。 -
调用
sigprocmask(SIG_SETMASK, &oldmask, NULL);
时再次解除对SIGALRM
的屏蔽。
关于SIGCHLD信号
进程一章讲过用wait
和waitpid
函数清理僵尸进程,父进程可以阻塞等待子进程结束,也可以非阻塞地查询是否有子进程结束等待清理(也就是轮询的方式)。采用第一种方式,父进程阻塞了就不能处理自己的工作了;采用第二种方式,父进程在处理自己的工作的同时还要记得时不时地轮询一下,程序实现复杂。
其实,子进程在终止时会给父进程发SIGCHLD
信号,该信号的默认处理动作是忽略,父进程可以自定义SIGCHLD
信号的处理函数,这样父进程只需专心处理自己的工作,不必关心子进程了,子进程终止时会通知父进程,父进程在信号处理函数中调用wait
清理子进程即可。
请编写一个程序完成以下功能:父进程fork
出子进程,子进程调用exit(2)
终止,父进程自定义SIGCHLD
信号的处理函数,在其中调用wait
获得子进程的退出状态并打印。
事实上,由于UNIX的历史原因,要想不产生僵尸进程还有另外一种办法:父进程调用sigaction
将SIGCHLD
的处理动作置为SIG_IGN
,这样fork
出来的子进程在终止时会自动清理掉,不会产生僵尸进程,也不会通知父进程。系统默认的忽略动作和用户用sigaction
函数自定义的忽略通常是没有区别的,但这是一个特例。此方法对于Linux可用,但不保证在其它UNIX系统上都可用。请编写程序验证这样做不会产生僵尸进程。