《C程序设计语言》笔记 (八) UNIX系统接口
8.1 文件描述符
UNIX操作系统通过一系列的系统调用提供服务,这些系统调用实际上就是操作系统内的函数 ANSI C标准函数库是以UNIX系统为基础建立起来的 在UNIX系统中所有的外围设备都被看作是文件系统中的文件,因此,所有的输入输出都要通过文件读写完成 也就是说,通过一个单一的接口就可以处理外围设备和程序之间的所有通信 在读写文件之前,必须先将这个意图通知系统,该过程称为打开文件 如果是写写一个文件,则可能需要先创建该文件 操作系统想程序返回一个小的非负整数,该整数称为文件描述符。 任何时候对文件的输入输出都是通过文件描述符标识文件,而不是通过文件名标识文件 系统负责维护已打开文件的所有信息,用户程序只能通过文件描述符引用文件 因为大多数的输入输出都是通过键盘和显示器来实现的 为了方便起见,UNIX对此做了特别的安排 当命令解释程序运行一个程序的时候,它将打开3个文件 对应的文件描述符分别是012 依次标识标准输入 标准输出 标准错误
8.2 低级IO --read和write
输入输出是通过read和write系统调用实现的 在C语言中,可以通过函数read和write访问这两个系统调用 read(int fd,char *buf,int n); write(int fd,char *buf,int n); 第一个参数是文件描述符 第二个参数是程序中存放读写的数据的字符数组 第三个参数是要传输的字节数 没个调用返回实际传输的字节数 在读文件时,函数的返回值可能会小于请求的字节数 如果返回值为0,则标识已到达文件结尾 如果返回-1则表示发生了某种错误 在写文件时返回值是实际写入的字节数 如果返回值与写入的字节数不相等,则说明发生了错误 在一次调用中,读写的数据可以为任意大小 最常用的值为1,即每次读写1字节(无缓冲) 或是类似于1024或4096这样的与外围设备的物理块大小相应的值 用更大的值调用该函数可以获得更高的效率,因为系统调用的次数减少了 #include "syscalls.h" main() { char buf[BUFSIZ]; int n; while((n = read(0,buf,BUFSIZ)) > 0) write(1,buf,BUFSIZ); return 0; } 系统调用的函数原型集中放在一个syscalls.h中 参数BUFSIZ也已经包含中头文件中 对应所使用的操作系统来说,该值是一个较合适的数值 如果文件大小不是BUFSIZ的倍数,则对read的某次调用会返回一个较小的字节数 //getchar实现 int getchar(void) { char c; return (read(0,&c,1)==1)?(unsigned char) c : EOF; } 其中c必须是一个char类型的变量,因为read函数需要一个字符指针类型的参数 在返回语句中将c转换为unsigned char类型可以消除符号扩展问题 如果要在包含头文件<stdio.h>的情况下编译getchar函数 就必须用#undef预处理指令取消getchar的宏定义 因为在头文件中,getchar是以宏方式实现的
8.3 open creat close 和unlink
除了默认的标准输入 标准输出和标准错误文件外 其他文件都必须在读写前显式打开 系统调用open和creat用于实现该功能 open和fopen很相似,不同的是 open非常一个文件描述符 int类型的数值 fopen返回一个文件指针 #include <fcntl.h> int fd; fd = open(char *name,int flags,int perms); 参数name文件名 flags是一个int类型的值,说明文件打开方式 包括 O_RDONLY 只读 O_WRONLY 只写 O_RDWR 读写 目前 open 参数perms的值始终为0; 如果打开的文件不存在则将导致错误 可以使用creat系统调用创建新文件或覆盖已有的文件 int fd; fd = creat(char *name,int perms); 如果创建成功返回文件描述符 否则返回-1 如果此文件已存在,清空原来数据 使用creat创建一个已经存在的文件不会导致错误 如果要创建的文件不存在,以参数perms指定的权限创建文件 每个文件对应一个9比特的权限信息 所有者 所有者组 其他成员 一个程序同时打开的文件数是有限制的(通常为20) 如果一个程序需要同时处理许多文件,那么他必须重用文件描述符 函数close用了断开文件描述符和已打开文件直接的连接,并释放此文件描述符 close函数和标准库中的fclose函数想对应,但它不需要清洗(flush)缓冲区 如果程序通过exit函数退出或从主程序中返回,所有打开的文件将被关闭 函数unlink将文件从文件系统中删除,它对应标准库函数remove
8.4 随机访问 lseek
输入输出通常是顺序进行的 每次调用read和write进行读写的位置紧跟在前一个操作的位置后 但是,有时需要以任意的顺序访问文件,系统调用lseek可以在文件中任意移动位置而不实际读写任何数据 long lseek(int fd,long offset,int orign); 将文件描述符fd的当前位置设置为offset offset是相对于origin指定的位置而言 随后进行的读写操作将从此位置开始 使用lseek系统调用时,可以将文件视为一个大数组,其代价是访问速度慢一些 标准库函数fseek和系统调用lseek类似 不同的是,前者的第一个参数是FILE *类型 且发生错误时返回一个非0值
8.5 实例 -- fopen和getc函数的实现
标准库中的文件不是通过文件描述符描述的,而是使用文件指针描述的 文件指针是一个指向包含文件各种信息的结构的指针 包含如下信息: 一个指向缓冲区的指针,通过它可以一次读入文件的一大块内容 一个记录缓冲区中剩余的字符数的计数器 一个指向缓冲区下一个字符的指针 文件描述符 描述读写模式的标志 描述错误状态的标志 描述文件的数据结构包含在<stdio.h>中 只供标准库中其他函数使用的名字以下划线开始,因此一般不会和用户程序中的名字冲突
8.6 实例 -- 目录列表
在UNIX中的目录就是一种文件 ls只需读取此文件就可以获得所有的文件名 但是如果需要获取文件的其他信息,就需要系统调用
8.7 实例 -- 存储分配程序
malloc在必要是调用系统以获取更多的存储空间 malloc并不是从一个在编译时就确定的固定大小的数组中分配存储空间 而是在需要的时候想操作系统申请空间 因为程序中的某些地方可能不通过malloc申请空间 所以malloc管理的空间不一定是连续的 这样空闲存储空间以空闲块链表的方式组织 每个块包含一个长度 一个指向下一块的指针及一个指向自身存储空间的指针 当有申请请求时,malloc将扫描空闲块链表,直到找到一个足够大的块为止 该算法称为 "首次适应" 与之对应的算法是"最佳适应" 如果块恰好与请求的大小符合 将它从链表中移走并返回给用户 如果块太大,则将它分成两部分: 大小合适的返回给用户,剩下的部分留在空闲链表中 如果找不到足够大的块,则想操作系统申请一个大块并加入到空闲链表中 释放过程也是首先搜索空闲链表 以找到可以插入被释放块的合适位置 如果与被释放块相邻的任意一边是空闲,则将两块合并成一个大块 由malloc返回的存储空间满足将要保存的对象的对齐要求 虽然机器类型各异,但是每个特定的机器都有一个最受限的类型 如果最受限的类型可以存储在某个特定的地址中 则其他所以的类型也可以存放在此地址中 向系统申请存储空间是一个开销很大的操作 我们不希望每次malloc执行该操作 UNIX系统调用sbrk(n)返回一个指针,该指针指向n个字节的存储空间 如果没有空闲空间,sbrk返回-1