竟态条件(时序竟态)初窥
先不管标题,我们先实现一个函数:my_sleep();但在这之前我们需要熟悉一个新系统调用函数:pause();
pause函数
调用该函数可以造成进程主动挂起,等待信号唤醒。调用该系统调用的进程将处于阻塞状态(主动放弃cpu) 直到有信号递达将其唤醒。
int pause(void); 失败返回值:-1 并设置errno为EINTR
返回值:
① 如果信号的默认处理动作是终止进程,则进程终止,pause函数么有机会返回。
② 如果信号的默认处理动作是忽略,进程继续处于挂起状态,pause函数不返回。
③ 如果信号的处理动作是捕捉,则【调用完信号处理函数之后,pause返回-1】errno设置为EINTR,表示"被信号中断"。想想我们还有哪个函数只有出错返回值。
④ pause收到的信号不能被屏蔽,如果被屏蔽,那么pause就不能被唤醒。
好,我们要实现的函数名叫my_sleep,sleep的原型是:unsigned int sleep(unsigned int seconds);那么也猜到了,我们就是要自己实现一个sleep函数,pause函数只是主动挂起进程,那么我们还需要一个定时的函数:alarm();
下面动手写代码:
#include <unistd.h>
#include <stdlib.h>
#include <stdio.h>
#include <signal.h>
//unsigned int sleep(unsigned int seconds);
void catch (int a)//自定义信号处理函数
{
;//do nothing
}
unsigned int my_sleep(unsigned int seconds)
{
struct sigaction act, oldact;
act.sa_handler = catch;
act.sa_flags = 0;
sigemptyset(&act.sa_mask);//初始化(清零)
int s_ret = sigaction(SIGALARM, &act, &oldact);
if (-1 == s_ret)
{
perror("sigaction error");
exit(1);
}
alarm(seconds);//先发送信号,挂起之后就不能发信号了。
pause();
sigaction(SIGALRM, &oldact, &act);//复位原先系统对SIGALRM信号的处理方式
return alarm(0);//返回未定时的秒数。
}
int main(void)
{
while (1)
{
my_sleep(3);
puts("———— - \n");
}
return 0;
}
如果忘了对信号的处理函数,可看前面的文章。其实很简单,大概的输入就是这样:我的光标每隔0.5秒闪烁一次,闪烁六次输出一次。就这样,很简单。重点是我们要对alarm函数发出的信号进行捕捉,不让他执行默认的动作。pause函数则是核心,是它将进程休眠了定时器时间那么多时间,而不是alarm函数起作用,alarm函数实际是就是记了个时间,他不能让进程停滞。起主要作用的是是pause函数。
现在我们来深入讨论一下,若是程序在执行到这行代码就长时间(大于3秒)失去cpu资源。会发生什么?位置:
当cpu资源重新回到这个进程上时,3秒中已经过去了,SIGALRM信号已经处于递达态,CPU肯定会优先处理该信号的,这个信号处理之后,在来执行pause函数,那么,我们想想,这个进程还有可能被唤醒么?pause之后进程等待信号唤醒,可是现在信号都没有,它就不会醒了。对于这个小的测试程序来说,其实没啥,但是,这若是Linux服务器的一个核心程序,虽然这种概率比较小,但是服务器那是跑起来就不停的,某个时间段出现这样的事也不奇怪,这个程序一停,损失就老大了。说这么多,其实就是要让我们重视这东西。
那么该如何处理呢?我是处理不了的,但是有大神们已经搞定了这个bug。在这里又介绍一个新函数:sigsuspend;
原型:int sigsuspend(const sigset_t *mask); :挂起等待信号。sigsuspend函数调用期间,进程信号屏蔽字由其参数mask指定。
可将某个信号(如SIGALRM)从临时信号屏蔽字mask中删除,这样在调用sigsuspend时将解除对该信号的屏蔽,然后挂起等待,当sigsuspend返回时,进程的信号屏蔽字恢复为原来的值。如果原来对该信号是屏蔽态,sigsuspend函数返回后仍然屏蔽该信号。
改进之后的my_sleep:
unsigned int my_sleep(unsigned int seconds)
{
struct sigaction act, oldact;
sigset_t newmask, suspmask, oldmask;
unsigned int unslept;
//1.为SIGALRM设置捕捉函数,一个空函数catch
act.sa_handler = catch;
act.sa_flags = 0;
sigemptyset(&act.sa_mask);//初始化(清零)
int s_ret = sigaction(SIGALARM, &act, &oldact);
if (-1 == s_ret)
{
perror("sigaction error");
exit(1);
}
//2.设置阻塞信号集,阻塞SIGALRM信号,使得内核不处理该信号
sigemptyset(&newmask);
sigaddset(&newmask, SIGALRM);
sigprocmask(SIG_BLOCK, &newmask, &oldmask);//信号屏蔽字 mask;
//3.定时secons秒,到时后产生SIGALRM信号
alarm(seconds);
//4.构造一个调用sigsuspend临时有效的阻塞信号集,在临时有效的阻塞信号集中解除对SIGALRM信号的阻塞,不阻塞就可以实时处理该信号
suspmask = oldmask;
sigdelset(&suspmask, SIGALRM);//绝对保证SIGALRM不在阻塞信号集中
//5.sigsuspend调用期间,采用临时阻塞信号即suspamsk替换原有阻塞信号集
//这个信号集中不包含SIGALRM信号,同时挂起等待,
//当sigsuspend被信号唤醒并返回时,恢复原有阻塞信号集
sigsuspend(&suspmask);
sigaction(SIGALRM, &oldact, &act);//复位原先系统对SIGALRM信号的处理方式
return alarm(0);//返回未定时的秒数。
}
就只有my_sleep函数做了变动,相关的步骤已经在代码中说的很清楚了。经过我的测试,和开始的my_sleep效果一样,但是里面的技术含量时不不一样的。下面我们来总结一下。
时序问题分析
回顾,借助pause和alarm实现的mysleep函数。设想如下时序:
注册SIGALRM信号处理函数 (sigaction…)
调用alarm(3) 函数设定闹钟3秒。
函数调用刚结束,开始倒计时3秒。当前进程失去cpu,内核调度优先级高的进程(有多个)取代当前进程。当前进程无法获得cpu,进入就绪态等待cpu。
3秒后,闹钟超时,内核向当前进程发送SIGALRM信号(自然定时法,与进程状态无关),高优先级进程尚未执行完,当前进程仍处于就绪态,信号无法处理(未决)
优先级高的进程执行完,当前进程获得cpu资源,内核调度回当前进程执行。SIGALRM信号递达,信号设置捕捉,执行处理函数sig_alarm。
信号处理函数执行结束,返回当前进程主控流程,pause()被调用挂起等待。(欲等待alarm函数发送的SIGALRM信号将自己唤醒)
SIGALRM信号已经处理完毕,pause不会等到。
解决时序问题
可以通过设置屏蔽SIGALRM的方法来控制程序执行逻辑,但无论如何设置,程序都有可能在"解除信号屏蔽"与"挂起等待信号"这个两个操作间隙失去cpu资源。除非将这两步骤合并成一个"原子操作"。sigsuspend函数具备这个功能。在对时序要求严格的场合下都应该使用sigsuspend替换pause。
int sigsuspend(const sigset_t *mask); 挂起等待信号。
sigsuspend函数调用期间,进程信号屏蔽字由其参数mask指定。
可将某个信号(如SIGALRM)从临时信号屏蔽字mask中删除,这样在调用sigsuspend时将解除对该信号的屏蔽,然后挂起等待,当sigsuspend返回时,进程的信号屏蔽字恢复为原来的值。如果原来对该信号是屏蔽态,sigsuspend函数返回后仍然屏蔽该信号
总结
竞态条件,跟系统负载有很紧密的关系,体现出信号的不可靠性。系统负载越严重,信号不可靠性越强。
不可靠由其实现原理所致。信号是通过软件方式实现(跟内核调度高度依赖,延时性强),每次系统调用结束后,或中断处理处理结束后,需通过扫描PCB中的未决信号集,来判断是否应处理某个信号。当系统负载过重时,会出现时序混乱。
这种意外情况只能在编写程序过程中,提早预见,主动规避,而无法通过gdb程序调试等其他手段弥补。且由于该错误不具规律性,后期捕捉和重现十分困难。