操作系统-文件的结构以及文件管理
文件的物理结构
文件的分配方式
在内存管理中,进程的逻辑地址空间被分为一个一个的页面,同样的,在外存管理中,为了方便对文件数据的管理,文件的逻辑地址空间也被分为了一个个的文件“块”。
文件的逻辑地址表示为逻辑块号、块内地址的形式。
连续分配
要求每个文件在磁盘上占有一组连续的块。
假设现在用户已经给出了要访问文件的逻辑块号,操作系统找到该文件对应的FCB(文件控制块中含有文件的起始地址和长度),然后物理块号=起始块号+逻辑块号。 当然在计算值钱要验证逻辑块号的合法性,当逻辑块号小于块长度才能代入计算出物理块号。
优点
- 连续分配可以直接算出逻辑块号对应的物理块号,因此连续分配支持顺序访问和直接访问。
- 连续分配的文件在磁盘读写的时候速度最快。
缺点
连续分配的文件在外存上不方便拓展。存储空间利用率低,会产生磁盘碎片。
链接分配
隐式链接
每个文件目录项中(FCB)记录了起始块号和结束块号,除最后一个磁盘块外,其余的多了一个文件指针,这个文件指针永远指向下一个磁盘块,这些指针对用户来说是不可见的。这就是隐式链接。
隐式链接这样做只支持顺序访问,不支持随机访问。(类比数据结构中的链表)查找效率低,另外指向下一个盘块需要额外的存储空间。
优点
很方便文件拓展,不会有碎片问题,外存利用率高。
缺点
只支持顺序访问,不支持随机访问,查找效率低,指向下一个盘块的指针也需要耗费少量的存储空间。
显示链接
把用于链接文件各个物理块的指针显示的放在一张表中,即文件分配表(FAT)。一个磁盘只会建立一张文件分配表。开机时文件分配表放在内存,并常住内存。
优点
很方便文件拓展,不会有碎片问题,外存利用率高,并且支持随机访问。相比于隐式链接来说。地址转换时不需要访问磁盘,因此文件的访问效率更高。
缺点:文件分配表需要占用一定的存储空间。
索引分配
索引分配允许文件离散地分配在各个磁盘块中,系统会为每个文件建立一张索引表,索引表中记录了文件的各个逻辑块对应的物理块(索引表的功能类似于内存管理中的页表一一建立逻辑页面到物理页之间的映射关系)。索引表存放的磁盘块称为索引块。文件数据存放的磁盘块称为数据块。
若文件太大,索引表项太多,可以采取以下三种方法解决:
1、链接方案:如果索引表太大,一个索引块装不下,那么可以将多个索引块链接起来存放。缺点:若文件很大,索引表很长,就需要将很多个索引块链接起来。想要找到ⅰ号索引块,必须先依次读入0~i-1号索引块,这就导致磁盘0次数过多,查找效率低下。
2、多层索引:建立多层索引(原理类似于多级页表)。使第一层索引块指向第二层的索引块。还可根据文件大小的要求再建立第三层、第四层索引块。采用K层索引结构,且顶级索引表未调入内存,则访问一个数据块只需要κ+1次读磁盘操作。缺点:即使是小文件,访问一个数据块依然需要κ+1次读磁盘。
3、混合索引:多种索引分配方式的结合。例如,一个文件的顶级索引表中,既包含直接地址索引(直接指向数据块),又包含一级间接索引(指向单层索引表)、还包含两级间接索引(指向两层索引表)。
优点:对于小文件来说,访问一个数据块所需的读磁盘次数更少。
超级超级超级重要考点:
- 要会根据多层索引、混合索引的结构计算出文件的最大长度(Key:各级索引表最大不能超过一个块);
- 要能自己分析访问某个数据块所需要的读磁盘次数(Key:FCB中会存有指向顶级索引块的指针,因此可以根据FCB读入顶级索引块。每次读入下一级的索引块都需要一次读磁盘操作。另外,要注意题目条件一一顶级索引块是否已调入内存)
总结
文件的逻辑结构
文件的属性
文件名:由创建文件的用户所决定,主要是为了方便用户找到文件,同级目录下不允许有重名文件。
标识符:系统对文件的标识符是唯一的,操作系统用于区分各个文件的内部名称。
类型:指明文件的类型
位置:文件存放的路径(让用户使用)
文件大小,创建时间,最近一次修改时间。保护信息:用户对文件的访问权限。
文件之间怎样组织起来的
磁盘下有许多目录和文件,目录下还可以有其他的目录和文件。
目录其实是一种特殊的结构文件。
操作系统向上提供了那些功能
基本功能
- 创建文件(create系统调用)
- 删除文件(delete系统调用)
- 读文件(read系统调用)
- 写文件(write系统调用)
- 打开文件(open系统调用)
- 关闭文件(close系统调用)
注意:读/写文件操作需要和打开关闭文件操作结合起来使用。
其他的复杂操作,例如复制文件是由创建文件,读文件,写文件,打开关闭文件共同组合在一起实现的功能。
文件的逻辑结构
逻辑结构是站在用户的角度看数据的存储是如何组织起来的;
物理结构是站在操作系统看来,文件的数据是怎样存放在外存中的。
无结构文件
文件内部的数据是由一系列二进制流或字符流组成的。又称“流式文件”。如操作系统的.txt文件。
有结构文件
又称为“记录式文件”。每条记录由若干个数据项组成。如数据库表文件。一般来说,每排记录又一个数据项可作为关键字(ID)。根据各条记录的长度(占用的存储空间)是否相等,又分为定长记录和可变长记录两种。
文件的逻辑结构分为顺序文件、索引文件和顺序索引文件
顺序文件
文件中的记录,一个接着一个地顺序排列(逻辑上),记录可以是定长的或可变长的。各个记录在物理上可以顺序存储或链式存储。
顺序存储,逻辑上的相邻物理上其实也相邻。(数组)
链式存储,逻辑上的相邻,物理上不一定相邻。(链表)
顺序文件又按照排序方式分为,串结构和顺序结构。
串结构:记录之间的顺序与关键字无关,记录通常按照时间排序。
顺序结构:记录之间的顺序按关键字顺序排列
如果顺序文件是按照链式存储,无论是定长还是可变长记录,无论是串结构还是顺序结构。都无法随机访问或存储,每次都只能从第一个记录开始一次往后查找。
如果顺序文件是按照顺序存储,如果是可变长记录,则还是无法实现随机访问,只能从第一个开始依次往后查找。
如果是定长访问,可以实现随机存取。例如长度为10,那么第i个记录存放的相对位置是10*i。
若采用串结构,无法快速定位关键字的记录;如果采用顺序结构,可以快速找到某个关键字对应的记录(二分查找)。
索引文件
建立一张索引表,每个记录对应一个表项。各个记录不用保持顺序,方便增加/删除记录
索引表本生就是定长记录的顺序文件,一个索引表项就是一条定长记录,因此索引文件客户支持随机存取。
若索引表按照关键字排序,则可支持快速检索。
优点:
解决了顺序文件不方便增/删记录的问题,同时让不定长记录的文件实现了随机存取。但索引表可能占用很多空间。
索引顺序文件
索引顺序文件是索引文件和顺序文件思想的结合。索引顺序文件中,同样会为文件建立一张索引表,但不同的是:并不是每个记录对应一个索引表项,而是一组
记录对应一个索引表项。
这是怎么做的呢?
比如对一个学生表建立一个索引顺序文件,他会按照学生的姓名分组排序,排好序后,开头字母就像新华字典中显示的那样A,B,C…。然后索引表中的索引项就类似于键值对的存储方式,键是排好序后第一组第一个学生的姓名(开头字母是A),值当然就是存储的地址,同样索引项第二个就是第二组第一个学生的姓名(Bxx)。其实索引表中的所以想不需要按关键字顺序排序也能方便新表项的插入。
多级索引顺序文件
为了进一步提高检索效率,可以为顺序文件建立多级索引表。例如,对于一个含10^5个记录的文件,可先为该文件建立一张低级索引表,每100个记录为一组,故低级索引表中共有10000个表项(即10000个定长记录),再把这10000个定长记录分组,每组100个,为其建立顶级索引表,故顶级索引表中共有100个表项.
此时检索一个记录平均需要查找50+50+50=150次
文件目录
文件控制块(实现文件目录的关键数据结构)
需要对目录进行的操作
搜索:当用户要使用一个文件时,系统要根据文件名搜索目录,找到该文件对应的目录项
创建文件:创建一个新文件的同时,需要在所属目录下增加一个目录项
删除文件:当删除一个文件时,需要在其所属中删除相应的目录项
显示目录:用户可以请求显示目录的内容
修改目录:某些文件属性保存在目录中,因此这些属性变化时需要修改就对应的目录项(文件重命名)
目录结构
单级目录结构
早期操作系统并不支持多级目录,整个系统中自建立一张目录表,每个文件占一个目录项。
单级目录实现了“按名存取”,不允许文件重名
两级目录结构
两级目录结构分为主文件目录,和用户文件目录。
主文件目录记录用户名及相对应的用户文件目录存放的位置。
用户文件目录由该用户的文件控制块组成。
两级目录结构允许不同用户的文件重名(文件名称相同但是对应的其实是不同的文件),也可以在目录上实现访问权限。但是两级目录结构依然缺乏灵活性,用户不同对自己的文件进行分类。
多级目录结构(树形目录结构)
不同目录下的文件可以重命名,可以对文件进行分类,不方便文件共享,系统根据文件路径找到目标文件。
从根目录出发的路径是绝对路径
从当前目录触发的是相对路径
无环图目录结构
在树形目录的基础上增加了一些指向同一节点的有向边,使整个目录成为一个有向无环图。可以方便的实现多个用户间的文件共享。
可以用不同的文件名指向同一个文件,甚至可以指向同一个目录(共享目录下的所有文件)
文件共享需要为每一个共享节点设置一个共享计数器,用于记录此时有多少个地方在共享该节点。用户踢出删除节点时,只是删除该用户的FCB、并让共享计数器减一,并不会直接删除该节点。只有当共享计数器减为0时,才删除节点。
注意:共享文件不同于复制文件。在共享文件中,由于个用户指向的是同一文件,因此只要其中一个用户修改了文件数据,其他用户都是对这个节点的数据可见的。
索引节点(FCB)的改进
文件控制块中刚开始包含有文件名文件类型,存取权限,物理位置等等属性。但是查找文件的时候只要文件名匹配就能读取文件的信息,这时其他的属性就成为了冗余数据,为了消除冗余,提升磁盘间IO的效率,就引入了索引节点的概念,将除文件名外的所有文件属性,描述信息都放到索引节点中,这时的文件控制块FCB只含有文件名和指向索引节点的指针。前后对比一下不同
以前的FCB
现在的FCB
这样做的好处是,提升文件检索的速度,因为以前一个表单项中含有的数据太多,所占空间也大,但是现在只有文件名和索引节点指针,所占字节减小了许多,因此每次磁盘IO读取速度也提升了。
当找到文件名对应的目录项时,才需要将索引节点调入内存,索引节点中记录了文件的各种信息,包括文件在外存中的存放位置,根据存放位置找到对应文件。
在外存中存放的所以节点称为磁盘索引节点,当索引节点再放入内存后被称为内存索引节点。
相比之下内存索引节点中需要增加一些信息,比如:文件是否被修改、此时有几个进程正在访问该文件等。
文件的存储空间管理
存储空间的划分与初始化
磁盘分区其实就是为物理磁盘划分文件卷(逻辑卷与逻辑盘)
目录区主要存放目录信息(FCB)、用于磁盘存储空间管理的信息(文件目录,空闲表,位示图,超级块等用于文件管理的数据)。文件区用于存放文件数据。
有的系统支持超大型文件,可支持由多个物理磁盘组成的文件卷。
几种管理方法
用什么方式记录组织磁盘块
如何分配磁盘块
如何回收磁盘块
空闲表法
适用于连续分配方式。
如何分配磁盘块:
与内存管理中心的动态内存分区很类似,为一个文件分配连续的存储空间。同样可采用首次适应、最佳适应、最坏适应等算法来决定要为文件分配哪个空闲区。
如何回收磁盘块:
当回首存储块有四种情况。
- 回收区的前后都没有空闲块。
- 回收区的前后都有空闲块。
- 回收区的前面是空闲区。
- 回收区的后面是空闲区。
注意:回收的时候需要合并空闲区
空闲链表法
空闲链表法分为空闲盘块链和空闲盘区链两种结构。
**空闲盘块链,**操作系统保存着连头、尾的指针。将一个个空闲块用指针相连。块中存储这下一个空闲块的指针。
如何分配:若某个文件申请K个盘块,则从链头开始一次取出k个盘块进行分配,并修改链头指针。
如何回收:回收的盘块依次挂到链尾,并修改空闲链尾的指针。
空闲盘区链
分配方式:若梦剖个文件申请K个盘块,这可以采用首次适应/最佳适应、最坏适应等算法,从链头开始检索,按照算法规则找到大小合适的空闲盘区,其实盘区就是由一个一个相邻的盘块组成的。若没有合适的盘区,也可以将不同盘区的盘块同时分配给一个文件,注意分配后可能要修改相应的链指针、盘区大小等数据。
回收方式:若会后块和某个空闲盘区相邻,挨在一起的话就把回收后的盘区与空闲盘区合并成一个大的空闲盘区。若不相邻,将回收后的盘区单独作为一个空闲盘区挂在链尾。
位示图法
每个二进制位对一个一个盘块。比如1代表盘块不空闲(里面有数据),0代表空闲的盘块。位示图就用一连串的1,0表示磁盘中的数据存储状态。之中的每一位对应一个盘块。
位号:代表位示图中的每行的列数。
字号:代表图中的行数
由字号和尾号可以求出二进制位对应的盘块号。
(字号,位号)(i,j) 盘块号 b = ni+j;
b盘块号对应的字号i=b/n; 位号 j=b%n;
分配方式
若文件需要K个块,第一步:顺序扫描位示图,找到K个相邻或不相邻的0;
第二步:根据字号、位号算出对应的盘块号,将相对应盘块分配给文件
第三步:将相应位设置成1
回收方式
- 根据回收的盘块号计算出字号和位号,将相应的二进制位改成0
这种方式连续分配和离散分配都适用。
成组链接法
Unix采用的策略,适合大型文件系统。
从文件卷的目录区中用一个磁盘块作为“超级块”,当系统启动时需要将超级块读入内存。并且要保证内存与外存中的“超级块”数据一致。
文件的基本操作
创建文件
进行Create系统调用时,需要提供的几个主要参数:
- 所需磁盘空间大小
- 文件存放的路径
- 文件名(windows系统中默认的是新键文本文档)
创建文件时,第一步应该在外存中找到文件所需要的存储空间(空闲链表法,位示图法,成组链接法)
第二步,根据文件存放的路径的信息找到该目录对应的目录文件,在目录文件中创建文件对应的目录项。
目录项中包含文件大小,文件名,文件存放位置等信息。
删除文件
删除操作时需要提供文件存放的路径和文件名。
操作系统根绝文件存放的路径找到目录文件,在目录文件下找到与文件名相同的文件,然后根据文件的目录项找到外存地址,回收磁盘块。(空闲表法,空闲链表法,位示图法等策略进行处理)
删除文件目录项。
打开文件
打开文件需要的参数
- 文件存放的路径
- 文件名
- 要对文件进行的操作(r,w,a+,rw,x)
操作系统在处理open系统调用主要做了以下的事
首先根据文件路径找到目录文件,从目录中找到与文件名匹配的目录项,并检查用户是不是拥有该文件的操作性权限。然后将该文件的目录项复制到内存中,内存中又一个类似于打开文件表用来给打开的文件编号,并将文件编号返回给用户。之后用户使用打开文件的编号指明要操作的文件。
将文件的目录项放在内存中就不需要每次都重新查找目录了,可以加快访问速度。
其实每个用户进程也有自己的打开文件表,这个表中有文件编号,文件名,读写指针(用来定位操作文件内的位置)用户对文件的访问权限,系统表索引号。操作系统的打开文件表中的字段可能多些,有外存地址和打开计数器(打开计数器用来表时当前文件有多少个用户进程正在访问),如果一个用户进程关闭了文件,计数器就减一,如果有其他用户进程打开了文件,计数器就加一;当文件有其他用户进程打开时,若有用户想删除该文件,是删除不了的,以为此时该文件增在被其他用户所使用。
关闭文件
操作系统处理Close系统调用时,主要做了以下的事:
- 将进程打开的文件表对应的表项删除。
- 回收分配给该文件的内存空间等资源
- 系统打开文件表的计数器减一,若count=0,则删除对应的表项。
读文件
读文件需要提供该文件在打开文件表中的编号,还要指明读入内存多少个字节(一般全部读入),读入内存后放在内存的什么位置。
操作系统在处理read系统调用时,会从读指针指向的外存中,将用户指定大小的数据读入用户指定的内存区域。
写文件
进程使用write系统调用,需要指明是哪个文件(文件编号),还需要指明要写出多少数据,写回外存的数据放在内存什么地方。
操作系统在处理write系统调用时,会从用户指定的内存区域中将指定好的大小的数据,写回外存(磁盘)。
文件共享
基于索引结点的共享方式(硬链接)
由于检索文件只需要文件名就可以了,所以将其他文件属性组合成一个节点,这个节点就是索引节点,索引值指针向索引结点。这样目录项就只需要包含文件名和索引指针。
那基于索引结点是如何实现文件共享的呢?
在索引结点中设置一个链接计数器,表示链接到本索引节点上的用户目录项数。如果count=2,就说明有两个用户目录项正在共享该文件。
当count=0时系统负责删除该文件。
若count>0,暂时不能把文件数据删除,否则会导致指针悬空。
基于符号链的共享方式(软链接)
符号链接又称为软链接,在一个link型的文件中记录共享文件的存放路径(类似于windows的快捷方式)
操作系统根据路径一层一层查找目录,最终找到共享文件。
即使软链接指向的共享文件已被删除,这个存有文件路径的link型文件依然存在,只是通过link型文件中的路径去查找共享文件会失败(找不到目录项)
由于软链接的方式访问共享文件的时候要查询所及目录,会有多次磁盘IO,因此用软链接访问文件速度比硬链接访问速度要慢。
文件保护
口令保护
为文件设置一个“口令”,用户想要访问文件时,需要提供口令,有系统验证口令是否正确,如果正确才可以访问文件。实现开销小,但是口令是直接存储在操作系统中的,如果系统被入侵,口令也会被别人知道,所以不太安全。
加密保护
用一个密码对文件进行加密,用户进行访问文件时,需要提供相同的“密码”才能正确解密
安全性高,但是加密/解密需要耗费一定的时间
访问控制
这是现代操作系统对此实现的文件保护。
用一个访问控制表记录各个用户或各组用户对文件的访问权限。
对文件的访问类型可以为:读写、执行、删除等
实现灵活,可以实现复杂的文件保护机制。
文件层次结构
- 当用户需要通过操作系统提供的接口发出上述请求时–用户接口
- 由于用户提供的是文件的存放路,因此操作系统需要查找目录找到对应的目录项–文件目录系统
- 不同的用户对文件有不同的操作权限,因此为了保证安全,需要检查用户是否有访问权限–存取控制块
- 验证了用户的访问权限,需要吧记录号转变成对一个逻辑地址—逻辑地址与文件信息缓冲区
- 知道了目录记录对应的逻辑地址后,还需要转换成实际的物理地址–物理文件系统
- 删除这条记录,必定要对磁盘设备发起请求–设备管理程序模块
- 删除这些记录后,会有一些盘块空闲,因此要将这些空闲盘块回收–辅助分配模块