Linux进程的虚拟空间

进程的虚拟地址

Linux每一个运行的程序(进程)操作系统都会为其分配一个0~4G的地址空间(虚拟地址空间)。

为了更深入的理解,做一个测试

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>

int g_val = 10;

int main()
{
	int ret = fork();
	if (ret < 0){
		// error
		perror("fork error");
		return 0;
	}
	else if (ret == 0){
		// child
		while (1){
			printf("I am child,pid:%d %d:%p\n", getpid(), g_val, &g_val);
			sleep(1);
		}
	}
	else{
		// parent
		while (1){
			printf("I am parent:pid:%d %d:%p\n", getpid(), g_val, &g_val);
			sleep(1);
		}
	}
	return 0;
}

代码运行结果如下

从上面可以看出,父子进程中对同一变量打印的地址是一样的,这里是因为子进程以父进程为模板,因为都没有对数据进行修改,所以这里变量地址也是一样的。

我们再看一段代码,对上面的代码进行一些修改:

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
int g_val = 10;
int main()
{
	int ret = fork();
	if (ret < 0){
		// error
		perror("fork error");
		return 0;
	}
	else if (ret == 0){
		// child
		int count = 0;
	    while (1){
	      printf("修改数据前:\n");
	      printf("I am child,pid:%d %d:%p\n", getpid(), g_val, &g_val);
	      sleep(1);
	      count++;
	      if (count == 3){
	        g_val = 20;// 子进程对数据进行修改
	        printf("修改数据后:\n");
	    }
	}    
}
	else{
		// parent
		while (1){
			printf("I am parent:pid:%d %d:%p\n", getpid(), g_val, &g_val);
			sleep(1);
		}
	}
	return 0;
}

运行结果如下

可以发现,子进程对数据进行修改之后,父进程打印的g_val的值是不一样的,但是地址却是一样的。

原因

在fork创建子进程之后,父子进程共享代码和数据,但是如果有一方对数据做出了修改,那么修改方将堆被修改的这一份数据写实拷贝,这一份数据各自私有,所以根据我们现有的知识可以推断出变量g_val在父子进程中的地址应该是不一样的,但是测试发现他们的这个变量地址是一样的,但是内容却不一样。
难道对于同一块空间可以有两份不同的数据吗?
答案是否定的。所以我们可以得出结论,我们上面看到的地址绝对不是物理地址。

事实上,在Linux地址下,这种地址叫做虚拟地址(下面讨论)。且平时我们在C/C++语言打印所看到的地址都是虚拟地址,物理地址对于我们用户是看不到的,由OS管理。

进程地址空间

进程地址空间也是由OS所创建的一个结构体——mm_struct,其中对虚拟地址每个区域进行了对应的划分(从0x00000000到0xffffffff)它也是被放在PCB中管理起来的,可以通过PCB找到对应的进程地址空间。每个进程都要一个进程地址空间,也就是每个进程都认为自己独享内存资源。所以说进程地址空间其实是一个虚拟地址空间。
虚拟地址空间 每个进程存放的是一个虚拟地址空间,OS会将虚拟地址通过某种映射关系映射到对应的物理地址空间,从而得到自己的那一份数据。(看图)

父子进程各种有一份虚拟空间地址,在子进程刚被创建时,父子进程代码和数据共享,所以此时虚拟地址空间的内容是基本一样的(当然有部分数据不同,比如各子的id等),且映射关系也是一样的,但是当子进程对数据进行修改时,子进程对那份数据进行写时拷贝,所以物理空间地址发生了变化,但是虚拟地址还是没有发生变化,只是改变了子进程的页表中那份虚拟地址的映射关系而已(实际上改变的是物理地址的偏移量),所以两个相同的虚拟地址在父子进程分别看到了不同的物理地址空间。

问题思考

1.父子进程之间如何做到具有独立性?

父子进程的数据和代码都是共享一份的,但是如果有一方试图写入数据,那么写入方将对修改的数据进行写时拷贝,且修改页表中该数据的虚拟地址映射到物理地址的关系。从而父子进程可以看到属于各自的那一份数据,从而达到独立性。

2.虚拟地址空间带来的好处有哪些?

a.有了虚拟地址空间,它和物理内存中间添加了一个软件层(页表),这样可以完成有效地对进程内存操作的权限管理,每个进程就要通过虚拟地址和页表中的映射关系来访问各自的物理内存,从而起到保护物理内存的作用。
b.将内存申请和内存使用的概念在时间上划分清楚,通过虚拟地址空间来屏蔽底层内存申请的过程(进程也不再关心该过程),从而达到进程和OS进行内存管理操作,进行进程调度和内存管理进行解耦。
c.虚拟地址空间可以将空间连续化,降低了异常越界访问的概率。
d.有了虚拟地址空间,每个进程认为自己独享整个内存资源。每个进程将以相同的方式看待内存,这样就大大地提高了操作系统的工作效率。举例:CPU在对每个进程中的代码执行时,要找到代码的起始地址,且只需要查找固定的虚拟地址,因为对于不同的进程地址空间有不同的映射关系,所以这个固定的虚拟地址在不同的进程中会映射到不同的物理地址中,找到相关代码和数据,所以CPU可以很快地查找到程序运行的起始位置。
e.站在CPU和应用层角度,看待内存的方式是统一的,且每个空间区域的相对位置是比较确定的。

3.再次理解进程和进程的创建?

进程是被加载到内存中的程序,其中包含代码和相关的数据,还有操作系统为之创建的相关的数据结构,其中有PCB(task_struct)、进程地址空间(mm_struct)和页表,我们可以通过PCB找到对应的mm_struct(虚拟的进程地址空间)。
简单理解,每个进程创建的时候都有一个PCB,这个PCB中保存着进程的全部信息,包括进程地址空间mm_struct,这个结构体内保存这进程变量信息的虚拟地址,通过地址映射表可以找到该变量在物理内存中的物理地址,当父子进程创建的时候,父子进程拥有属于自己的PCB和进程地址空间mm_struct,我们知道子进程是父进程的拷贝,所以mm_struct结构体内的大部分虚拟地址都是一样的,地址映射表也继承自父进程,但是一旦写时拷贝,子进程就会改变地址映射表中的物理地址偏移量,虚拟地址不变,但是偏移量改变了,指向的是不同的物理地址,这就是写时拷贝的底层原理,拷贝的物理地址存储的信息,并改变映射表的偏移量。

posted @ 2022-10-20 22:48  一只少年AAA  阅读(54)  评论(0编辑  收藏  举报