系统级I/O学习记录
重要知识点
输入/输出(I/O)
I/O是主存和外部设备(如磁盘驱动器、终端和网络)之间拷贝数据的过程。
- 输入操作是从I/O设备拷贝数据到主存。
- 输出操作是从主存拷贝到I/O设备。
Unix I/O
在unix中所有的I/O设备都被模型化为文件,这使得所有的输入输出都能以一种统一的方式进行。
-
打开文件:一个应用程序通过要求内核打开相应的文件,来宣告它想要访问一个I/O设备。内核返回一个小的非负整数,叫做描述符,它在后续对此文件的所有操作中标识这个文件。
Unix外壳创建的每个进程开始时都有三个打开的文件:标准输入(描述符为0)、标准输出(描述符为1)和标准错误(描述符为2)。头文件<unistd.h>定义常量STDIN_FILENO、STDOUT_FILENO和STDERR_FILENO,可用来代替显式的描述符值。
-
改变当前文件位置:对于每一个打开的文件,内核保持着一个文件位置k,初始时为0。这个文件位置是从文件开头起始的字节偏移量。应用程序能够通过执行seek操作,显示地显示当前文件位置。
-
读写文件:一个读操作就是从文件拷贝n>0个字节到存储器,从当前文件位置k开始,然后将增加到k+n。给定一个大小为m字节的文件,当k>=m时执行读操作会触发一个称为end-of-file(EOF)的·条件,应用程序会检测到这个符号。注:在文件结尾处并没有明确的"EOF符号"。
-
关闭文件:当应用完成对文件的访问后,它会通知内核关闭这个文件。内核释放文件打开时创建的数据结构,并将这个描述符恢复到可用的描述符池。无论一个进程因为何种原因终止时,内核都会关闭所有打开的文件并释放了它们的存储器资源。
打开和关闭文件
进程通过调用open函数来打开一个存在的文件或者创建一个新文件。
-
filename为文件描述符,并且返回描述符数字。返回的描述符总是在进程中当前没打开的最小描述符。
-
flags参数指明了进程打算如何访问这个文件
flags参数:
-
O_RDONLY:只读。
-
O_WRONLY:只写。
-
O_RDWR:可读可写。
-
O_CREAT:如果文件不存在,就创建它的一个截断的(空)文件。
-
O_TRUNC:如果文件存在就截断它。
-
O_APPEND:在每次写操作前,设置文件位置到文件结尾处。
-
mode参数指定了新文件的访问权限位, 同时作为上下文的一部分,每个进程都有一个umask,其通过umask函数来设置。文件的访问权限=mode&(~umask)。
访问权限位:
进程通过close函数关闭一个打开的文件。
关闭一个已关闭的描述符会出错。
读和写文件
程序通过调用read和write函数来执行输入和输出的。
注:size_t:被定义为unsigned int,ssize_t被定义为int。
RIO包
RIO包会自动处理读写文件值出现的不足值。其提供了两类不同的函数:
-
无缓冲的输入输出函数:这些函数直接存在存储器和文件之间传送数据,没有应用级缓冲·。它们将对二进制数据读写到网络和从网络中读写二进制数据尤其有用。
-
带缓冲的输入函数:这些函数允许高效地从文件中读取文本行和二进制数据,这些文件的内容缓存在应用级缓冲区内,类似于为像printf这样的标准I/O函数提供的缓冲区
元数据
元数据即文件的信息。应用程序能通过调用stat和fstat函数检索元数据。
内核表示打开文件的数据结构
-
描述符表:每个进程都有它独立的描述符表,它的表项是由进程打开的文件描述符来索引的。每个打开描述符表项指向文件表中的一个表象。
-
文件表:打开文件的集合是由一个张文件表来表示的,所有进程都共享这张表。每个文件表的表项组成包括当前文件位置、引用计数(即当前指向该表的描述符项目数),以及一个指向v-node表中对应表项的指针。关闭一个描述符会减少相应的文件表表项中的引用记数。内核不会删除这个文件表表项,直到他的引用计数为零。
-
v-node表:同文件表一样,所有的进程共享这张v-node表。每个表项都包含stat结构中的大多数信息包括st_mode和st_size成员。
I/O重定向
Unix外壳提供I/O重定向操作符,允许用户将磁盘文件和标准输入输出联系起来。一般通过调用dup2函数实现I/O重定向。
标准I/O
ANSI C定义了一组高级输入输出函数,称为标准I/O库,为程序员提供Unix I/O的较高级别的替代。
该库提供:
- 打开和关闭文件的函数。
- 读和写字节的函数。
- 读和写字符串的函数。
- 复杂的格式化的I/O函数。
标准I/O库将一个打开的I/O库将一个打开的文件模型化为一个流。对于程序员而言,一个流就是一个指向FILE类型的结构的指针。每个ANSI C程序开始时都有三个打开的流stdin、stdout和stderr,分别对应于标准输入、标准输出和标准错误:
FILE的流是对文件描述符和流缓冲区的抽象。
流缓冲区的目的(与RIO读缓冲区的一样):使开销较高的Unix I/O系统调用的数量尽可能小。
遇到问题
问题:
使用课本上定义的csapp.h编译错误。
解决方法:
从同学那获取了官网的csapp.h头文件,即可通过编译。
参考资料
《深入理解计算机系统》第10章系统级I/O。