【APUE】Chapter4 File and Directories
4.1 Introduction
4.2 stat, fstat, fstatat and lstat Functions & 4.3 File Types
1. 介绍一个系统提供的结构体 struct stat,里面包含了与文件相关的各种信息。
书上还介绍,unix系统命令ls -l就是用了上面的数据结构。
2. File Types
(1)Regualr file
(2)Directory file:包含目录文件名和指向这些文件的信息
(3)Block special file:a type of file providing buffered I/O access...
(4)Character special file:a type of file providing unbuffered I/O access.. 另外,所有的system device要么是block size file,要么是character special file(虽然暂时不知道这两种文件都干什么的,先记下来)
(5)FIFO:a type of file used for communication between process
(6)Socket:a type of file used for network communication between process
(7)Symbolic link:a type of file that points to another file
有关文件类型的信息,可以由上面提到的几个函数结合struct stat结构体中的st_mode属性获得。
#include <stdio.h> #include <stdlib.h> #include <unistd.h> #include <sys/stat.h> int main(int argc, char *argv[]) { int i; struct stat buf; char *ptr; for ( i=1; i<argc; i++) { printf("%s: ",argv[i]); lstat(argv[i], &buf); if (S_ISREG(buf.st_mode)) ptr = "regular"; else if (S_ISDIR(buf.st_mode)) ptr = "directory"; else if (S_ISCHR(buf.st_mode)) ptr = "character special"; else if (S_ISBLK(buf.st_mode)) ptr = "block special"; else if (S_ISFIFO(buf.st_mode)) ptr = "fifo"; else if (S_ISLNK(buf.st_mode)) ptr = "symbolic link"; else if (S_ISSOCK(buf.st_mode)) ptr = "socket"; else ptr = "** unkown mode **"; printf("%s\n",ptr); } exit(0); }
可以看到,如果用了stat函数,就不会识别出来symbolic link类型的文件了。
4.4 Set-User-ID and Set-Group-ID
1. real user ID and real group ID:
实际调用进程的user ID或这个process是由哪个父进程发起的也就把user ID继承过来了。
2. effective user ID and effective group ID:
与权限的user ID,即判断一个进程是否对某个文件有操作权限的依据。
#include <stdio.h> #include <stdlib.h> #include <unistd.h> int main() { printf("real uid = %d\n", getuid()); printf("effective uid = %d\n", geteuid()); exit(0); }
(2)-rwxrwxr-x 开头的'-'表示是文件,不是文件夹也不是link;rwx表示owner具有读写和执行的权限;rwx表示同组的user具有读写和执行的权限;r-x表示other用户具有读和执行的权限,没有写权限。
getuid()获得进程的real user id;geteuid获得进程的effective user id;
通过上述结果可以知道:real user id就是程序的调用用户transFei,而effective user也是程序的real user即transFei。
返回到transFei账户下,执行代码,发现real uid和effective uid依然没有变化。
可以看到:在上述情况下,即使改变了a.out的owner,回到transFei用户状态下,依然不会改变real user与effective user。
切换到root账户下,修改a.out的user相关的bit:“u+s”表示a.out在执行的时候,是可以获得a.out的root权限的,即使调用a.out的user并不是root。这一点,可以通过a.out的执行结果得知虽然real uid还是transFei,但是effective uid已经变成了root了。
上面的这种模式就叫set-user-id,'+s'就赋予了程序文件这样的特性(可以是u+x, g+x, o+x)。这种模式提供了一种折中的权限解决方案:你可以不是程序的创建者,甚至连读和写的权限都没有;但是允许你在调用程序的时候,获得程序owner一样的权利。这里有一个具体的例子:unix系统允许一个登陆用户改变自己的登陆密码(可以写/etc/passwd文件,但是却不需要root权限),就是因为passwd(1)这个程序具有这样的特性,见下图:
3. saved set-user ID and saved set-group ID:当程序执行的时候,保存effective user ID和effective group ID
4.5 File Access Permissions
1. process属性:process的effective user id 和 effective group id说的是这个process是什么身份
2. file属性:file status mode bit表明了不同身份的访问者有什么权限
3. kernel负责匹配process权限属性与file权限属性,判断某个process的身份能有什么样的file权限;具体来说,kernel按照如下步骤检查一个process是否具备操作某个file的权限:
(1) 如果effective user ID为0(root权限),则一路畅通无阻
(2) effective user ID = owner ID of file,process就是user身份,权限就是user权限
(3) effective group ID = group ID of the file,process就是同group身份,权限就是同group的权限
(4) 如果既不是user身份,也不是同group身份,那么就归到other身份中了,权限就是other的权限
4.6 Ownership of New Files and Directories
4.7 access and faccessat Functions
针对real user id来判断是否有操作文件的权限。
之前不是说,一般来说process的effective user id就是real user id么?为什么还要针对real user id来判断?
就像之前4.4中说的那样,如果-rws这种的情况:执行某个文件的时候,effective user id变成了文件的owner,就不再是real user id了;如果这个时候要对real user进程访问权限控制,就需要下面这个函数了。
int access(const char *pathname, int mode);
判断real user的是否有权限。
#include "apue.h" #include <fcntl.h> int main(int argc, char *argv[]) { if (argc != 2) { err_quit("usage: a.out <pathname>"); } if (access(argv[1], R_OK)<0) { err_ret("access error for %s", argv[1]); } else printf("read access OK\n"); if (open(argv[1],O_RDONLY)<0) { err_ret("open error for %s", argv[1]); } else printf("open for reading OK\n"); exit(0); }
(3)set-user-id bit位设为s
4.8 umask Function
函数原型:mode_t umask(mode_t cmask)
其中cmask参数可以用bitwise OR的形式来组织,哪个在里面,就把哪个权限屏蔽掉了。
#include "apue.h" #include <fcntl.h> #define RWRWRW (S_IRUSR|S_IWUSR|S_IRGRP|S_IWGRP|S_IROTH|S_IWOTH) int main() { mode_t old; old = umask(0); printf("old umask: %o\n", old); if (open("foo",O_CREAT,RWRWRW)<0) { err_sys("create error for foo"); } umask(S_IRGRP|S_IWGRP|S_IROTH|S_IWOTH); if (open("bar",O_CREAT, RWRWRW)<0) { err_sys("create error for bar"); } exit(0); }
再补充一点,这种mask bit是按照八进制的方法来表示;一共九个bit,1表示屏蔽了,0表示没屏蔽,每个单bit的屏蔽参数如下:
0400 屏蔽user-read
0200 屏蔽user-write
0100 屏蔽user-exectue
0040 屏蔽group-read
0020 屏蔽group-write
0010 屏蔽group-execute
0004 屏蔽other-read
0002 屏蔽other-write
0001 屏蔽other-execute
4.9 chmod, fchmod, and fchmodat Functions
chmod系列命令是针对existing file进行权限设置操作,可以做加减法。
#include "apue.h" int main() { struct stat statbuf; /*turn on set-group-id and turn off group-execute*/ if (stat("foo",&statbuf)<0) { err_sys("stat error for foo"); } if (chmod("foo",(statbuf.st_mode & ~S_IXGRP)| S_ISGID)<0) { err_sys("chmod error for foo"); } /*set absolute mode to "rw-r--r--"*/ if (chmod("bar",S_IRUSR|S_IRGRP)) { err_sys("chmod error for bar"); } exit(0); }
这里需要注意的是chmod设定的是absolute value;如果想根据current value设置,就需要先或st_mode属性,再做位运算。
4.10 Sticky Bit
4.11 chown, fchown, fchownat, and lchown Functions
1. 如果是symbolic link的需要注意,lchown改变的是owners of the symbolic link itself 而并不是link指向的file
2. BSD-based systems要求必须只有superuser能够改变file的ownership
4.12 File Size
1. 只有regualr files, directories 和 symbolic links是有意义的
2. 对于symbolic links来说,fize size就是pathname的长度,如下:
3. file hole的情况,file size会比真实的大;实际使用的size少。
4.13 File Truncation
int truncate(const char *pathname, off_t length)
int ftruncate(int fd, off_t length)
(1)如果length没有实际文件的长度大,那么文件大于length长度的都no longer accessible了
(2)如果length比实际文件的长度大,那么实际文件的size扩大了,并且可能产生了file hole
4.14 File System
这部分内容主要讲的是File System的某部分结构,围绕i-node展开的。
1. 图中有两个directory entries指向了同一个i-node entry,每个i-node都有一个link count来记录有多少directory entries指向它,这种叫硬链接。
2. 还有一种类型的link叫symbolic link,意思就是实际data block中存放的并不是数据,而是这个symbolic link所指向的文件名。这种link叫soft link。
3. i-node里面包含了如下的内容:
(1)file type
(2)file permission bits
(3)size of the file
(4)pointers to the field's data blocks
4. 另外与file相关的filename和i-node number存放在directory block中
上面的图解释了如果是link count field for a directory的情况:
1. 如果是directory是leaf directory(没有子目录了):如testdir这个目录,编号是2549;首先存在一个编号为2549的i-node;directory entry中有一个'.'指向2549这个i-node,还有'testdir'这个指向2549这个i-node。
2. 如果directory下面还有subdirectory:如编号为1267这个directory,至少有三个directory entry指向这个i-node。'.' '..' 以及编号伟1267这个文件夹的名。
通过上面的实操例子,可以体会硬连接(ln)和软链接(ln -s)的区别。
(2)硬链接不能夸不同的file system;而软链接可以跨不同的file system
4.15 link, linkat, unlink, unlinkat, and remove Functions
int unlink(const char *pathname);
这个unlink是干什么用的?书上说的是"remove an existing directory entry"。
通俗或者不严谨的理解可以是:就是原来用ls能看到一个文件,执行unlink从目录中看不到了。回顾一下4.14的图,如果把entry去掉了,就意味着用户无法访问了。但是文件真的就从file system中删除了么?不是的。
可以看P117的内容,unlink只是减少了一个directory entry。kernel判断是否要完全从file system中删除一个文件取决于两点:
(1)link count是0
#include "apue.h" #include <fcntl.h> int main() { open("log", O_RDWR); unlink("log"); printf("file unlinked\n"); sleep(25); printf("done\n"); exit(0); }
(1)unlink之后,发现在当前目录中找不到log这个文件了,但是这个文件还在file sytem中(因为disk使用量没有变化)
(2)等待sleep结束之后,exit(0)退出a.out这个process(exit把各种file descriptor都给关闭了),释放了a.out对log这个文件的占用,因此在这个时候kernel正式把log这个文件从system中删除了
4.16 rename and renameat Function
int rename(const char *oldname, const char *newname);
(2)如果oldname是directory,newname也是directory,则要求newname的directory必须是空的,并且newname的路径不能包包含在oldname中。比如 oldname是/usr/foo,newname是/usr/foo/testdir,这样的rename就是非法的。
4.17 Symbolic Links
(1)硬链接要求link和file都在同一个file system中
还有一点要注意,凡是涉及到处理文件相关的函数,都需要考虑symbolic links的影响:有的函数只处理link本身,有的就处理link后面实际所指的文件。书上提供了一张表如下:
关于ln -s命令的格式:
ln -s A B
执行的结果是:B是一个symbolic link,指向A
ln -s命令有可能会造成loop的情况。书上的例子如下:
foo是个文件夹;下面有一个testdir是一个symbolic link,并且指向它的上一层目录foo,就构成了一个loop。
如果要解除这个软链接,需要用unlink testdir即可。
这里还需要注意的是,unlink只管解除软链接,并不会follow链接后面跟着的内容。但是如果是open cat这样的命令,是会follow symbolic link后面具体的内容的。见下面的例子:
4.18 Creating and Reading Symbolic Links
int symlink(const char *actualpath, const char *sympath);
int symlinkat(const char *actualpath, int fd, const char *sympath);
上面这俩函数管生成symbolic link的
ssize_t readlink(const char *restrict pathname, char * restrict buf, size_t bufsize);
ssize_t readlinkat(int fd, const char* restrict pathname, char * restrict buf, size_t bufsize);
前面说了open直接打开symbolic link后面跟着的实际文件,如果要打开symbolic link本身,就用上面这俩函数即可。
4.19 File Time & 4.20 futimes, utimensat, and utimes Functions
1. 时间粒度有seconds也有nanoseconds。
2. 记录file和directory的修改时间:
(1)st_atime 访问文件数据的最后时间 可能由read引起
(2)st_mtime 修改文件数据的最后时间 可能由write引起
(3)st_ctime 修改i-node的最后时间 可能由chmod chown引起
3. 系统提供了几个函数可以修改上述几个针对file的时间
4.21 mkdir, mkdirat, and rmdir Functions
1. 创建时候注意设置文件夹的权限(尤其是execuate permission)
2. 删之前保证没有其他的资源在使用某个文件夹;指向这个文件夹的link的数目是0
4.22 Reading Directories
1. 这几个函数之间有约定速成的一个结构体DIR 便于数据交换
2. opendir fopendir这里函数负责由一个给定的pathname传回DIR指针
3. 其余的5个函数根据DIR来执行各种操作(比如,迭代directory下面的每个元素)
#include "apue.h" #include <dirent.h> #include <limits.h> #include <errno.h> /* If PATH_MAX is indeterminate, no guarantee this is adequate */ #define PATH_MAX_GUESS 1024 /*因为path不同于一般的变量 分配的长度是有讲究的 因此单拎出来一个函数 * 1. 返回分配好内存的首地址 也就是指针 * 2. 同时在sizep地址存放被分配的地址的长度*/ char *path_alloc(size_t *sizep) /* also return allocated size, if nonnull */ { #ifdef PATH_MAX long pathmax = PATH_MAX; #else long pathmax = 0; #endif char *ptr; size_t size; long posix_version = 0; long xsi_version = 0; /*系统配置相关*/ posix_version = sysconf(_SC_VERSION); xsi_version = sysconf(_SC_XOPEN_VERSION); /*这部分代码保证了pathmax在使用前是一个靠谱的非零值*/ if (pathmax == 0) { /* first time through */ errno = 0; if ((pathmax = pathconf("/", _PC_PATH_MAX)) < 0) { if (errno == 0) pathmax = PATH_MAX_GUESS; /* it's indeterminate */ else err_sys("pathconf error for _PC_PATH_MAX"); } else { pathmax++; /* add one since it's relative to root */ } } /* * Before POSIX.1-2001, we aren't guaranteed that PATH_MAX includes * the terminating null byte. Same goes for XPG3. */ /*这部分代码处理不同系统带来的size的差异性,最后一个结束字符到底是否计算入pathmax中*/ if ((posix_version < 200112L) && (xsi_version < 4)) size = pathmax + 1; else size = pathmax; if ((ptr = malloc(size)) == NULL) err_sys("malloc error for pathname"); if (sizep != NULL) *sizep = size; return(ptr); } typedef int Myfunc(const char *, const struct stat *, int); static Myfunc myfunc; static int myftw(char *, Myfunc *); static int dopath(Myfunc *); static long nreg, ndir, nblk, nchr, nfifo, nslink, nsock, ntot; #define FTW_F 1 /* file other than directory */ #define FTW_D 2 /* directory */ #define FTW_DNR 3 /* directory that can't be read */ #define FTW_NS 4 /* file that we can't stat */ static char *fullpath; /* contains full pathname for every file */ static size_t pathlen; static int myftw(char *pathname, Myfunc *func) { /* 1. 给fullpath分配内存 不能随意的malloc是因为文件路径的长度是有讲究的*/ fullpath = path_alloc(&pathlen); /* 2. 由于某些原因给fullpath分配长度pathlen不足 小于pathname的长度 因此就需要重新给fullpath分配内存*/ if (pathlen <= strlen(pathname)) { pathlen = strlen(pathname)*2; /*为什么是2倍 因为既要把pathname包含进去 又要把原来的pathlen包含进去 而pathlen是小于pathname的 所以2*pathname是最小代价的内存*/ if ((fullpath=realloc(fullpath, pathlen))==NULL) { err_sys("realloc failed"); } } /* 3. 把pathname复制到fullpath中*/ strcpy(fullpath, pathname); /* 4. 此时fullpath已经包含了目标原始pathname 则递归遍历*/ return(dopath(func)); } /* 总的来说, 这是一个典型的深度优先搜索的代码路子 * 这里只传递了一个函数指针 其实还有一个参数就完全路径 只不过这个参数以全局变量的形式出现了 * 终止条件: * 1. 如果无法获取fullpath对应的struct stat 则经过func函数处理后退出 * 2. 如果fullpath对应的不是目录 则经过func函数处理后退出 * 迭代fullpath路径下的各个元素 fullpath+各个元素 形成新的完整路径 再递归处理 * * 需要注意的是 fullpaht是一个全局变量 保证返回到上一层递归的时候fullpath是干净的*/ static int dopath(Myfunc* func) { struct stat statbuf; struct dirent *dirp; DIR *dp; int ret, n; if (lstat(fullpath, &statbuf)<0) { /*stat error*/ return(func(fullpath, &statbuf, FTW_NS)); } if (S_ISDIR(statbuf.st_mode)==0) { /*not a directory*/ return(func(fullpath, &statbuf, FTW_F)); } /*it's a directory. * 1. first call func() for the directory, * 2. then address each filename in the directory * */ if ((ret=func(fullpath, &statbuf, FTW_D))!=0) { /*让'目录数量'这个全局变量累加*/ return(ret); } n = strlen(fullpath); /*如果初始分配的长度不够 要重新分配fullpath的占用内存大小*/ if (n+NAME_MAX+2>pathlen){ pathlen *= 2; if ((fullpath = realloc(fullpath, pathlen)) == NULL) { err_sys("realloc failed"); } } fullpath[n++] = '/'; printf("%s\n",fullpath); fullpath[n] = 0; /*本质的原因是malloc方法分配的内存is not cleared的 可以看man手册查询*/ /*opendir的作用是迭代遍历fullpath下的各个元素*/ if ((dp=opendir(fullpath))==NULL) { /*can't read directory*/ return(func(fullpath, &statbuf, FTW_DNR)); } /*readdir不断迭代DIR类型指针dp 直到迭代到头*/ while ((dirp=readdir(dp))!=NULL){ if(strcmp(dirp->d_name, ".")==0 || strcmp(dirp->d_name, "..")==0) continue; /*ignore dot and dot-dot*/ strcpy(&fullpath[n], dirp->d_name); /*补上d_name就形成了完整的路径信息*/ if((ret = dopath(func))!=0) /*recursive*/ break; /*这里的策略是一旦有一个子目录无法recursive了 整体就退出了*/ } fullpath[n-1] = 0; /*这样做是保证了回到上一层之前fullpath是干净的*/ if (closedir(dp)<0) err_ret("can't close directory %s", fullpath); return(ret); } /*统计各种类型的文件的数量*/ static int myfunc(const char *pathname, const struct stat *statptr, int type) { switch(type) { case FTW_F: switch (statptr->st_mode & S_IFMT) { case S_IFREG: nreg++; break; case S_IFBLK: nblk++; break; case S_IFCHR: nchr++; break; case S_IFIFO: nfifo++; break; case S_IFLNK: nslink++; break; case S_IFSOCK: nsock++; break; case S_IFDIR: err_dump("for S_IFDIR for %s", pathname); } break; ndir++; break; case FTW_D: ndir++; break; case FTW_DNR: err_ret("can't read directory %s", pathname); break; case FTW_NS: err_ret("stat error for %s", pathname); break; default: err_dump("unkown type %d for pathname %s", type, pathname); } return(0); } int main(int argc, char *argv[]) { int ret; if (argc != 2) err_quit("usage: ftw <starting-pathname>"); ret = myftw(argv[1], myfunc); /* does it all */ ntot = nreg + ndir + nblk + nchr + nfifo + nslink + nsock; if (ntot == 0) ntot = 1; /* avoid divide by 0; print 0 for all counts */ printf("regular files = %7ld, %5.2f %%\n", nreg, nreg*100.0/ntot); printf("directories = %7ld, %5.2f %%\n", ndir, ndir*100.0/ntot); printf("block special = %7ld, %5.2f %%\n", nblk, nblk*100.0/ntot); printf("char special = %7ld, %5.2f %%\n", nchr, nchr*100.0/ntot); printf("FIFOs = %7ld, %5.2f %%\n", nfifo, nfifo*100.0/ntot); printf("symbolic links = %7ld, %5.2f %%\n", nslink, nslink*100.0/ntot); printf("sockets = %7ld, %5.2f %%\n", nsock, nsock*100.0/ntot); exit(ret); }
4.23 chdir, fchdir, and getcwd Functions
1. chdir变换的是当前process的working directory,并不能改变父进程的working directory
2. chidir是会跟着symbolic link往下走的;但是不会逆向往上走:
比如 A->B:如果chidir(A)则会走到B,但是chdir(B)不会跟着走到A
这一章的核心是stat function,这个函数获得的结构体中包含了文件的各种信息。
