内存探秘
图解虚拟地址到物理地址的翻译以及数据的获取(TLB,页表,cache)
前言
最近复习计算机组成原理,又重新把CPU发出虚拟地址一直到获得数据的过程捋了捋,算是又加深了理解。从虚拟地址经过TLB/页表得到物理地址,到物理地址经过cache/主存得到数据,真的是计算机体系结构的艺术了。
结合《计算机组成与系统结构》和《深入理解计算机系统》中对高速缓存和虚拟内存的描述,画出了如下示意图,从CPU发出虚拟地址到得到数据,整个构成一个完整的环。一图胜千言,看图吧~
示意图
注意事项
- TLB采用组相联
- 页表采用两级页表
- cache采用组相联
- cache仅考虑L1 d-cache,不考虑L1 i-cache、L2 cache和L3 cache
- 未考虑页表缺页
- 简化了cache未命中情况
多级页表如何节约内存
前言
在学习计算机组成原理时,书中谈到,"使用多级页表可以压缩页表占用的内存",在了解了多级页表的原理后,恐怕对这句话还是理解不了:把页表换成多级页表了就能节约内存了?不是还是得映射所有的虚拟地址空间么?
比如做个简单的数学计算,假如虚拟地址空间为32位(即4GB)、每个页面映射4KB以及每条页表项占4B,则进程需要1M个页表项(4GB / 4KB = 1M
),即页表(每个进程都有一个页表)占用4MB(1M * 4B = 4MB
)的内存空间。而假如我们使用二级页表,还是上述条件,但一级页表映射4MB、二级页表映射4KB,则需要1K个一级页表项(4GB / 4MB = 1K
)、每个一级页表项对应1K个二级页表项(4MB / 4KB = 1K
),这样页表占用4.004MB(1K * 4B + 1K * 1K * 4B = 4.004MB
)的内存空间。多级页表的内存空间占用反而变大了?
其实我们应该换个角度来看问题,还记得计算机组成原理里面无处不在的局部性原理么?
如何节约内存
我们分两方面来谈这个问题:第一,二级页表可以不存在;第二,二级页表可以不在主存。
二级页表可以不存在
我们反过来想,每个进程都有4GB的虚拟地址空间,而显然对于大多数程序来说,其使用到的空间远未达到4GB,何必去映射不可能用到的空间呢?
也就是说,一级页表覆盖了整个4GB虚拟地址空间,但如果某个一级页表的页表项没有被用到,也就不需要创建这个页表项对应的二级页表了,即可以在需要时才创建二级页表。做个简单的计算,假设只有20%的一级页表项被用到了,那么页表占用的内存空间就只有0.804MB(1K * 4B + 0.2 * 1K * 1K * 4B = 0.804MB
),对比单级页表的4M是不是一个巨大的节约?
那么为什么不分级的页表就做不到这样节约内存呢?我们从页表的性质来看,保存在主存中的页表承担的职责是将虚拟地址翻译成物理地址;假如虚拟地址在页表中找不到对应的页表项,计算机系统就不能工作了。所以页表一定要覆盖全部虚拟地址空间,不分级的页表就需要有1M个页表项来映射,而二级页表则最少只需要1K个页表项(此时一级页表覆盖到了全部虚拟地址空间,二级页表在需要时创建)。
二级页表可以不在主存
其实这就像是把页表当成了页面。回顾一下请求分页存储管理,当需要用到某个页面时,将此页面从磁盘调入到内存;当内存中页面满了时,将内存中的页面调出到磁盘,这是利用到了程序运行的局部性原理。我们可以很自然发现,虚拟内存地址存在着局部性,那么负责映射虚拟内存地址的页表项当然也存在着局部性了!这样我们再来看二级页表,根据局部性原理,1024个第二级页表中,只会有很少的一部分在某一时刻正在使用,我们岂不是可以把二级页表都放在磁盘中,在需要时才调入到内存?我们考虑极端情况,只有一级页表在内存中,二级页表仅有一个在内存中,其余全在磁盘中(虽然这样效率非常低),则此时页表占用了8KB(1K * 4B + 1 * 1K * 4B = 8KB
),对比上一步的0.804MB,占用空间又缩小了好多倍!
总结
我们把二级页表再推广到多级页表,就会发现页表占用的内存空间更少了,这一切都要归功于对局部性原理的充分应用。
回头想想,这么大幅度地解决内存空间,我们失去了什么呢?计算机的很多问题无外乎就是时间换空间和空间换时间了,而多级页表就是典型的时间换空间的例子了,动态创建二级页表、调入和调出二级页表都是需要花费额外时间的,远没有不分级的页表来的直接;而我们也仅仅是利用局部性原理让这个额外时间开销降得比较低了而已。
从虚拟内存看可执行文件的装载
前言
当双击打开一个可执行文件的时候,计算机究竟干了什么?磁盘上的可执行文件是怎么装载到内存当中去的?对于众多程序猿来说,这也仍然是一个不太容易回答的问题。
这次让我们从虚拟内存的角度来看看可执行文件的装载过程,仔细分析从可执行文件开始装载到第一条指令执行时发生了什么。
本文不再详细解释进程的概念、ELF文件结构、虚拟内存的定义、分页的概念、请求分页的工作原理。
装载
装载大体上可以分为以下几步:
- 创建进程
- 创建虚拟地址空间
- 读取可执行文件头,建立虚拟地址空间与可执行文件的映射关系
- 设置CPU指令寄存器为可执行文件入口地址
- 执行,触发缺页中断
下面来逐步分析
创建进程
创建进程不必多说了,此时会创建如进程标识符、进程优先级之类的信息。注意此时还不涉及到可执行文件。
创建虚拟地址空间
这一步其实应该算在创建进程里面,实际就是创建页表(多级页表),用来与物理内存建立连接,此时这个页表是空的。此时仍然不涉及到可执行文件。
读取可执行文件头
这个就是关键的一步了。进程开始读取可执行文件头,即ELF文件的头部,此时进程也仅仅读取ELF文件头部,不涉及到其他段。ELF文件头中含有可执行文件各段的起始地址和长度等信息,以及可执行文件入口地址,注意这里"地址"即虚拟内存地址。
这里需要强调的是:整个装载过程也仅仅是读取了ELF头部,仅此而已。因为ELF头部记录了整个可执行文件的节奏,所以根据ELF头部即可建立整个可执行文件的框架。因此,这一步实在建立与磁盘的连接。举个简单的例子,当发生缺页中断时,操作系统该去哪把缺的页加载到物理内存?这就是这一步的关键之处了。将虚拟内存地址与磁盘地址建立联系,当缺页时即可寻找到对应的磁盘地址,从而加载到物理内存。
还需要强调的一点是,此时在进程中,实际相当于是仅仅保存了一个函数映射关系。如下图有更直观的理解。
设置CPU指令寄存器
如上两步建立了虚拟地址空间和物理内存、磁盘的映射关系,现在就要准备运行此程序了。运行的第一条指令地址在哪?在ELF头部中。将CPU指令寄存器的值设置为第一条指令地址即可。
页中断
想想CPU在从入口地址取指令时会发生什么。假设入口地址指向.text段首,如图所示为0x8049000;CPU以此虚拟地址查找页表发现该页尚未装载,触发缺页中断。此时操作系统接管,从之前建立的虚拟地址空间与磁盘的映射关系中找到此页在磁盘中的地址;再从此地址读取页,加载到物理内存,缺页中断完毕。CPU重新从入口地址取指令,此时由页表得到物理地址,从内存中得到对应的指令,交给CPU。
随着进程的执行,缺页中断不断出现,磁盘中的可执行文件也逐渐加载到内存中。
总结
如上便是简单的可执行文件的装载过程,最需要强调的一点是,可执行文件的数据是 按需 加载到物理内存的,缺页中断驱动着进程的执行。