无缓冲文件IO和目录操作

引言

在后台开发中，对于文件I/O我们通常不使用C语言封装的fopen、fread、fwrite标准I/O，而是直接使用Linux提供的系统调用函数。因为这些系统调用没有使用用户缓冲区，我们直接与内核打交道，效率更高，且可以自己定制一些符合应用场景的操作。下面介绍Linux用于文件I/O的数据结构，以及一些具体的系统调用函数。

文件描述符

所有打开的文件都通过文件描述符引用，文件描述符只在当前进程有效，因为每个进程有一个PCB结构体，PCB包含一个文件描述符表。

文件描述符0对应标准输入、1对应标准输出、2对应标准错误，这些是在进程创建时默认绑定的文件描述符。

以上分别对应unistd.h中的STDIN_FILENO、STDOUT_FILENO、STDERR_FILENO。

每个进程的最大文件描述符可通过ulimit -a命令查看，并可通过ulimit -n 数字设置。

无缓冲文件IO

我们这里所说的无缓冲IO指的是无用户缓冲区，如fopen、fwirte、fread等函数，进程会在用户进程空间维护缓冲区，然后内核还有缓冲区，最后才是磁盘。而无缓冲IO是指只有内核缓冲区而无用户缓冲区，并不是没有任何缓冲区。

内核用于文件I/O的数据结构

每个进程在进程表中都有一个记录项，记录项包含一张打开文件描述符表。

在打开文件描述符表中，每个描述符占用一项：

文件描述符标志：目前只有CLOEXEC。
指向文件表项的指针

内核为所有打开文件维持一张文件表，每个文件表项包括：

文件状态标志：包括文件类型和访问权限。
当前文件偏移量
指向该文件inode节点的指针

他们之间的关系如下：

不同的文件表项可以指向相同的文件（i节点即索引结点），这可以使不同的进程有它自己的对该文件的偏移量和打开访问权限。

不同的文件描述符可以指向相同的文件表项。如在fork后，父子进程的每个相同文件描述符指向同一个文件表项。

【PS】：注意文件描述符标志(file descriptor flags)和文件状态标志(file status flags)的区别。

open函数

#include <fcntl.h>

int open(char* path, int flag, .../* mode_t mode */);

返回值：
    成功返回文件描述符
    失败返回-1

flag参数可以为：

必选参数：O_RDONLY（只读）、O_WRONLY（只写）、O_RDWR（读写）、O_EXEC（只执行）、O_SEARCH（只搜索，应用于目录文件）。这5个参数互斥，即只能指定一个。
可选参数，按位或：O_APPEND（每次写时都追加到文件尾端）、O_CLOEXEC（将FD_CLOEXEC常量设置为文件描述符标志）、O_CREAT（若文件不存在则创建它，用该参数时需要指定第三个参数即文件的权限位mode如0644，存在则直接打开）、O_DIRECTORY（若path不是目录，则返回错误）、O_EXCL（与O_CREAT同时指定，若文件已经存在，则出错。可以原子地测试和创建文件。）、O_NONBLOCK（设置非阻塞）、O_SYNC（每次write等待物理I/O完成）、O_TRUNC（若文件存在，且以只写或读写打开，则将其长度截断为0）。

creat函数

#include <fcntl.h>

int creat(char* path, mode_t mode);

返回值：
    成功返回以只写打开的文件描述符
    失败则返回-1

creat函数的一个缺点是它以只写方式打开新创建的文件。

close函数

#include <fcntl.h>

int close(int fd);

返回值：
    成功返回0
    失败返回-1

当进程终止时，内核会自动关闭它打开的所有文件。

lseek函数

每个打开文件都有一个当前文件偏移量（在系统全局的打开文件表项中）。读、写操作都从当前偏移量开始，并使偏移量增加所读的字节数。按系统默认，当打开一个文件时，若没有指定O_APPEND选项，该偏移量被设置为0。

#include <fcntl.h>

off_t lseek(int fd, off_t offset, int whence);

返回值：
    成功返回新的文件偏移量
    失败返回-1

whence可以取以下值：

SEEK_SET：将文件偏移量设置为距文件开始处offset字节处，offset为正。
SEEK_CUR：将文件偏移量设置为距现在位置offset字节处，offset可正可负。
SEEK_END：将文件偏移量设置为距文件尾端offet字节处，offset可正可负。

文件偏移量可以大于文件当前长度，对该文件的下一次写将加长该文件，并在文件中形成空洞。位于文件中但没有写过的字节都被读为0.

read函数

#include <unistd.h>

ssize_t read(int fd, void* buf, size_t nbytes);

返回值：
    成功返回读到的字节数，若读到文件尾，返回0
    失败返回-1

读操作从文件当前偏移量开始，读成功后，偏移量增加读到的字节数。

write函数

#include <unistd.h>

ssize_t write(int fd, void* buf, size_t nbytes);

返回值：
    成功返回已写的字节数
    失败返回-1

write返回值通常与参数nbytes的值相同，否则表示出错。

read和write的阻塞、非阻塞

read和write对于常规文件不会阻塞，一定会在有限时间内返回。read终端或网络设备时可能阻塞，终端在用户输入换行时才会刷新输入缓冲区，网络设备则不确定何时有输入。写网络设备可能阻塞。可以在open文件时指定O_NONBLOCK设定为非阻塞，则read时需要循环读。

dup和dup2函数

#include <unistd.h>

int dup(int fd);
int dup2(int fd, int fd2);

返回值：
    成功返回文件描述符
    失败返回-1

dup返回最小未用的文件描述符，使返回的文件描述符指向和fd相同的文件表项。

dup2先关闭fd2，然后使fd2指向fd指向的文件表项，并返回fd2。

新的描述符的执行时关闭标志(close-on-exec)总是被dup函数清除。

sync和fsync函数

#include <unistd.h>

void sync(void);
int fsync(int fd);

当向文件中写入数据时，内核先将数据复制到内核缓冲区，然后排入队列，晚些时候再写入磁盘，被称为延迟写。

sync将所有修改过的块缓冲区排入写队列，然后立即返回，并不等待实际写磁盘操作结束。

fsync只对由文件描述符fd指定的文件起作用，并且等待写磁盘操作结束后才返回，并不立即返回。

stat函数

stat函数用于查看文件的属性信息。

#include <sys/types.h>
#include <sys/stat.h>
#include <unistd.h>

int stat(char* file_path, struct stat* st);
int lstat(char* file_path, struct stat* st);  // 相比于stat，对于符号链接，lstat获取的是符号链接本身的属性信息

参数：
    file_path表示文件路径，st表示返回的stat结构体，为传出参数。
返回值：
    成功返回0，失败返回-1。

stat定义如下：
    
struct stat {
    dev_t     st_dev;         /* ID of device containing file */
    ino_t     st_ino;         /* Inode number */
    mode_t    st_mode;        /* File type and mode */
    nlink_t   st_nlink;       /* Number of hard links */
    uid_t     st_uid;         /* User ID of owner */
    gid_t     st_gid;         /* Group ID of owner */
    dev_t     st_rdev;        /* Device ID (if special file) */
    off_t     st_size;        /* Total size, in bytes */
    blksize_t st_blksize;     /* Block size for filesystem I/O */
    blkcnt_t  st_blocks;      /* Number of 512B blocks allocated */

    /* Since Linux 2.6, the kernel supports nanosecond
                  precision for the following timestamp fields.
                  For the details before Linux 2.6, see NOTES. */

    struct timespec st_atim;  /* Time of last access */
    struct timespec st_mtim;  /* Time of last modification */
    struct timespec st_ctim;  /* Time of last status change */

    #define st_atime st_atim.tv_sec      /* Backward compatibility */
    #define st_mtime st_mtim.tv_sec
    #define st_ctime st_ctim.tv_sec
};

获取文件类型：

方法①：按位与。

switch(st.st_mode & S_IFMT){
    case S_IFBLK:  printf("block device\n");            break;
    case S_IFCHR:  printf("character device\n");        break;
    case S_IFDIR:  printf("directory\n");               break;
    case S_IFIFO:  printf("FIFO/pipe\n");               break;
    case S_IFLNK:  printf("symlink\n");                 break;
    case S_IFREG:  printf("regular file\n");            break;
    case S_IFSOCK: printf("socket\n");                  break;
    default:       printf("unknown?\n");                break;

}

方法②：使用宏。

if(S_ISREG(st.st_mode)){
    ...
}else if(S_ISBLK(st.st_mode)){
    ...
}
...

获取文件权限：按位与。

if(st.st_mode & S_IRUSR){ // 文件所有者是否有读权限
    ...
}
if(st.st_mode & S_IWGRP){ // 文件所有者组是否有写权限
    ...
}
if(st.st_mode & S_IXOTH){ // 其他用户是否对文件有执行权限
    ...
}
...

fcntl函数

#include <fcntl.h>

int fcntl(int fd, int cmd, .../* int arg */);

返回值：
    成功返回值依赖于cmd
    失败返回-1

cmd可以取以下值：

F_DUPFD、F_DUPFD_CLOEXEC复制描述符
F_GETFD、F_SETFD设置获取文件描述符标志，目前只能改变O_CLOEXEC。
F_GETFL、F_SETFL设置获取文件状态标志，只能改变部分属性：O_APPEND、O_ASYNC、O_NONBLOCK、O_DIRECT、O_NOATIME。PS：改变文件描述符标志和文件状态标志都需要先获取原来的，然后在原来的基础上按位或（设置）、按位与非（取消设置），最后设置。
F_GETOWN、F_SETOWN设置获取异步IO所有权
F_GETLK、F_SETLK、F_SETLKW设置获取记录锁

getcwd函数

getcwd用于获取进程的当前工作目录。

#include <unistd.h>

char* getcwd(char* buf, size);

参数：
    buf为预分配的内存区，size为buf的大小。
返回值：
    进程的当前工作目录保存到buf中。
    失败返回NULL。

chdir函数

chdir用于改变进程的当前工作目录。

#include <unistd.h>

int chdir(const char* path);

参数：
    path为目标目录，可为绝对或相对路径。
    
返回值：
    成功返回0。
    失败返回-1。

opendir函数

opendir用于打开一个目录文件。

#include <sys/types.h>
#include <dirent.h>

DIR* opendir(const char* path);

参数：
    path为目录路径
返回值：
    失败返回NULL。
    成功返回DIR结构体指针。

readdir函数

readdir用于读取目录文件中的目录项。

#include <dirent.h>

struct dirent* readdir(DIR* dir);

返回值：
    每次读取DIR指向的目录中的一个条目，若需要遍历所有条目，需要循环调用readdir。readdir还会读取到.和..即当前目录和父目录。

返回值：
    失败返回NULL，并设置error。
    若所有条目都读取完，则也返回NULL，但不设置error。
    
dirent定义如下：
    
struct dirent {
    ino_t          d_ino;       /* Inode number */
    off_t          d_off;       /* Not an offset; see below */
    unsigned short d_reclen;    /* Length of this record */
    unsigned char  d_type;      /* Type of file; not supported
                                              by all filesystem types */
    char           d_name[256]; /* Null-terminated filename */
};


d_ino为文件对应的索引结点编号。

d_type取值如下，可以用来判断文件类型:

    DT_BLK      This is a block device.

    DT_CHR      This is a character device.

    DT_DIR      This is a directory.

    DT_FIFO     This is a named pipe (FIFO).

    DT_LNK      This is a symbolic link.

    DT_REG      This is a regular file.

    DT_SOCK     This is a UNIX domain socket.

    DT_UNKNOWN  The file type could not be determined.
        
d_name为文件名，以'\0'结尾，最大长度为256。

closedir函数

closedir用于关闭打开的目录文件。

#include <sys/types.h>
#include <dirent.h>

int closedir(DIR* dir);

参数：
    dir为目录结构体
返回值：
    失败返回-1。

参考资料

《APUE》

《Linux内核设计与实现》

__EOF__

本文作者：Hickey Zhang
本文链接：https://www.cnblogs.com/hickey2048/p/15834979.html
关于博主：评论和私信会在第一时间回复。或者直接私信我。
版权声明：本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！
声援博主：如果您觉得文章对您有帮助，可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力！

posted @ 2022-01-22 20:33 HickeyZhang 阅读(426) 评论(2) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Linux下的5种I/O模型与3组I/O复用

· linux 文件I/O

· 系统级I/O

· 【Linux】在Linux下文件io使用(二)

· Linux文件IO之二 [补档-2023-07-21]

阅读排行：
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型，支持深度思考和联网搜索！
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· ollama系列1：轻松3步本地部署deepseek，普通电脑可用
· 按钮权限的设计及实现
· 25岁的心里话

公告

无缓冲文件IO和目录操作

发表于 2022-01-22 20:33阅读：426评论：2推荐：0

Linux Linux基础 APUE

WeChat

关注

跳至底部

昵称： HickeyZhang
园龄： 5年
粉丝： 20
关注： 3

+加关注

Hickey

无缓冲文件IO和目录操作

引言

文件描述符

无缓冲文件IO

内核用于文件I/O的数据结构

open函数

creat函数

close函数

lseek函数

read函数

write函数

read和write的阻塞、非阻塞

dup和dup2函数

sync和fsync函数

stat函数

fcntl函数

getcwd函数

chdir函数

opendir函数

readdir函数

closedir函数

参考资料

公告

Hickey Zhang

无缓冲文件IO和目录操作

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (71)

随笔档案 (71)

阅读排行榜

推荐排行榜

最新评论