博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

一个fork的面试题——fork + 缓存区

Posted on 2014-05-05 13:59  xymaqingxiang  阅读(884)  评论(0编辑  收藏  举报

update : 20140512

题目:请问下面的程序一共输出多少个“-”?

 1 #include <stdio.h>
 2 #include <sys/types.h>
 3 #include <unistd.h>
 4   
 5 int main(void)
 6 {
 7    int i;
 8    for(i=0; i<2; i++){
 9       fork();
10       printf("-");
11    } 
12    return 0;
13 }

 

如果你对fork()的机制比较熟悉的话,这个题并不难,输出应该是6个“-”,但是,实际上这个程序会很tricky地输出8个“-”

要讲清这个题,我们首先需要知道fork()系统调用的特性

  • fork()系统调用是Unix下以自身进程创建子进程的系统调用,一次调用,两次返回,如果返回是0,则是子进程,如果返回值>0,则是父进程(返回值是子进程的pid),这是众为周知的。
  • 还有一个很重要的东西是,在fork()的调用处,整个父进程空间会原模原样地复制到子进程中,包括指令,变量值,程序调用栈,环境变量,缓冲区,等等

所以,上面的那个程序为什么会输入8个“-”,这是因为printf(“-”);语句,我们知道,Unix下的设备有“块设备”和“字符设备”的概念,所谓块设备,就是以一块一块的数据存取的设备,字符设备是一次存取一个字符的设备。磁盘、内存、显示器都是块设备,字符设备如键盘和串口。块设备一般都有缓存,而字符设备一般都没有缓存

所以,对于上述程序,printf(“-”);把“-”放到了缓存中,并没有真正的输出(参看《C语言的迷题》中的第一题),在fork的时候,缓存被复制到了子进程空间,所以,就多了两个,就成了8个,而不是6个。

我们如果修改一下上面的printf的那条语句为:

   1 printf("-\n"); 

或者

    1 printf("-"); 2 flush(); 

就没有问题了,因为程序遇到“\n”或是EOF,或是缓中区满,或是文件描述符关闭,或是主动flush,就会把数据刷出缓冲区

我估计有些朋友可能对于fork()还不是很了解,那么我们把上面的程序改成下面这样:

 1 #include <stdio.h>
 2 #include <sys/types.h>
 3 #include <unistd.h>
 4 int main(void)
 5 {
 6    int i;
 7    for(i=0; i<2; i++){
 8       fork();
 9       //注意:下面的printf有“\n”
10       printf("ppid=%d, pid=%d, i=%d \n", getppid(), getpid(), i);
11    }
12    sleep(10); //让进程停留十秒,这样我们可以用pstree查看一下进程树
13    return 0;
14 }

于是,上面这段程序会输出下面的结果,(注:编译出的可执行的程序名为fork)

 1 ppid=8858, pid=8518, i=0
 2 ppid=8858, pid=8518, i=1
 3 ppid=8518, pid=8519, i=0
 4 ppid=8518, pid=8519, i=1
 5 ppid=8518, pid=8520, i=1
 6 ppid=8519, pid=8521, i=1
 7   
 8 $ pstree -p | grep fork
 9 |-bash(8858)-+-fork(8518)-+-fork(8519)---fork(8521)
10 |            |            `-fork(8520)

面对这样的图你可能还是看不懂,没事,我好事做到底,画个图给你看看:

    

注意:上图中的我用了几个色彩,相同颜色的是同一个进程。于是,我们的pstree的图示就可以成为下面这个样子:(下图中的颜色与上图对应)

          

这样,对于printf(“-”);这个语句,我们就可以很清楚的知道,哪个子进程复制了父进程标准输出缓中区里的的内容,而导致了多次输出了。(如下图所示,就是我阴影并双边框了那两个子进程

      

现在你明白了吧。

 

 

 

BY:苗立尧(maxwell)——进程结束时缓存区变化

一、exit()与_exit()的关于缓存区问题的区别:

  从名字就能看出,exit()这个系统调用是用来终止一个进程的,无论进程执行在什么位置,只要遇到 exit(),进程就会停止剩下的剩余操作。而_exit()跟 exit()基本上是一样的,exit定义在 stdlib.h 中,而_exit()定义在 unistd.h 里。_exit()的作用最为简单,直接使进程停止运行,清除其使用的内存空间,并销毁其在内核中的各种数据结构,而 exit()是在其上作了一点包装。它们最大的区别是,exit()函数在调用 exit 系统调用之前要检查文件的打开情况,把文件缓冲区的内容写回文件,就是清理 I/O 缓冲。那如果我们的数据还放在缓冲区里,调用_exit()函数会使数据丢失,而使用 exit()函数是关闭 I/O 文件之前要刷新缓冲区的。在我们之前的例子里,用的是 return 0。main()函数体内,return 的效果和 exit()是一样的。

1、

1 int main(int argc, *argv[])
2 {
3     printf("hello xupt!\n");
4     printf("123456");    
5     exit(0);
6 }

 

执行结果为:

2、

1  int main(int argc, *argv[])
2  {
3      printf("hello xupt!\n");
4      printf("123456");    
5      exit(0);
6  }

 

执行结果:

二、关于带缓存的 I/O 和不带缓存的 I/O

  linux 对 IO 文件的两种操作划分。不带缓存,其实是在用户层没有缓存,不是直接对磁盘文件进行读取操作如 read()和 write(),它们都是系统调用。对于内核来说,要进行 IO时,内核先将数据写入到内核中所设的缓冲存储器,缓冲存储器满才写到磁盘上。而带缓存的 IO 也叫标准 IO,是 ASCI C 标准的 IO 处理,不依赖与内核,移植性强,目的就是减少read()和 write()的调用次数。使用标准 IO 可以减少系统调用如 read()和 write()的调用次数。其实质是在用户层建立一个缓存区(用户缓冲区也叫流缓冲区)。它对每个 IO 流自动进行缓存管理(标准 IO 函数一般使用 malloc 来进行缓存分配),它提供了三种类型的缓存-全缓存(例如磁盘上的文件),行缓存(输入输出遇到新行符或者缓存满时,stdin 和 stdout 通常是行缓存),无缓存(相当于 read,write,例如 stderr)。  

  一般的,由 OS 选择缓存长度并自动分配,标准 I/O 库在关闭流时候自动释放缓存。  

  标准 I/O 库可能效率不高,原因是需要复制的数据要在用户缓存和内核缓存之间复制,然后又从内核缓存复制到 I/O 缓存。例如调用 fgetc 和 fputs 时,数据要从内核和标准I/O 缓存之间(调用 read 和 write)复制,第二次是在标准 I/O 缓存(通常系统分配和管理),和用户程序中的行缓存(fgetc 的参数就需要一个用户行缓存指针)之间。

  

  无缓冲的 stderr 其实也不是完全没缓冲,只是缓冲区的大小不为 0,而为 1。