实例分析C程序运行时的内存结构
先验知识
- 静态变量存储在静态存储区,局部变量存储在动态存储区(栈),代码存放在代码区
- 寄存器,EBP指向栈底,ESP指向栈顶,EIP指向正在执行指令的下一条指令,三个寄存器中保存的都是地址,32位系统,地址为4个字节即dword
- 所有写在函数定义里面的语句都编译成指令(驱动CPU)
实验代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
#include <stdio.h> int fun( int a, int b); int m = 10; int main() { int i = 4; int j = 5; m = fun(i, j); } int fun( int a, int b) { int c = 0; c = a + b; return c; } |
这段代码包含两个函数,因此可以测试函数调用,此外还包含了静态变量、局部变量、返回值等
实验测试
测试工具:VC6.0
源代码及对应的汇编如下
寄存器及内存状态如下
EBP栈顶初始值为0018FF84h,ESP初始为0018FF48h
ESP和EBP在栈中的作用
在每个函数最开始的地方有两条语句
1
2
|
push ebp mov ebp,esp |
在函数返回前也有两条语句
1
2
|
mov esp,ebp pop ebp |
每运行一个函数就新开一段栈空间,所谓的开栈空间就是移动ebp栈底,在移动ebp之前,通过push ebp保存上一级函数的栈底,然后用ebp指向现在函数栈的栈顶,即为当前函数开辟了栈;接着给局部变量进行地址分配以及保存现场等,esp不断向低地址移动,当函数调用结束时,esp指回当前函数的栈顶(mov esp,ebp),然后上一级函数的栈顶地址出栈保存在ebp中(pop ebp)。因此,每一个函数的栈顶上面都保存着上一级函数的栈顶地址,用于当前函数结束时能够返回上一级函数的栈,通过ebp和esp以及压栈出栈操作对栈进行维护。
逐条分析
main函数对应的汇编代码如下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
|
7: int main() 8: { 00401020 push ebp // ebp初始为0018FF84h压栈,压栈后esp = 0018FF48h - 4 = 0018FF44h 00401021 mov ebp,esp // ebp保存栈顶0,ebp=esp=0018FF44h 00401023 sub esp,48h // esp -= 48h开辟了一段栈空间,留待后面保存局部变量,此时esp=0018FF44h-48h=0018FEFCh 00401026 push ebx 00401027 push esi 00401028 push edi // ebx、esi和edi压栈,esp = 0018FEFCh - 4*3 = 0018FEF0h 00401029 lea edi,[ebp-48h] // lea指令将ebp-48h作为偏移地址保存在edi中,edi=0018FEFCh,即栈中ebx的上面 0040102C mov ecx,12h 00401031 mov eax,0CCCCCCCCh 00401036 rep stos dword ptr [edi] // 将eax重复保存在以edi开始的栈空间里,重复次数为ecx次,向高地址方向,共覆盖12h*4=48h个地址,即栈中保存ebx的地址以上到ebp指向的地址这一段全部填充为cch 9: int i = 4; 00401038 mov dword ptr [ebp-4],4 // 保存变量i 10: int j = 5; 0040103F mov dword ptr [ebp-8],5 // 保存变量j 11: m = fun(i, j); 00401046 mov eax,dword ptr [ebp-8] // 将j保存在eax中 00401049 push eax // eax压栈, esp=0018FEF0h-4=0018FEECh 0040104A mov ecx,dword ptr [ebp-4] // 将i保存在ecx中 0040104D push ecx // ecx压栈,esp=0018FEECh-4=0018FEE8h 0040104E call @ILT+0(_fun) (00401005) // 以上实际上是为形参分配内存,顺序从右到左,此步进行函数跳转 00401053 add esp,8 // 形参的地址回收,esp=0018FEE8h+8=0018FEF0h 00401056 mov [_m (00424a30)],eax // 返回值存放在静态变量m中 12: return 0; 0040105B xor eax,eax // 返回值置为0 13: } 0040105D pop edi 0040105E pop esi 0040105F pop ebx 00401060 add esp,48h 00401063 cmp ebp,esp 00401065 call __chkesp (004010d0) 0040106A mov esp,ebp 0040106C pop ebp 0040106D ret |
fun函数的汇编代码理解
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
|
15: int fun( int a, int b) 16: { 00401090 push ebp 00401091 mov ebp,esp 00401093 sub esp,44h 00401096 push ebx 00401097 push esi 00401098 push edi 00401099 lea edi,[ebp-44h] 0040109C mov ecx,11h 004010A1 mov eax,0CCCCCCCCh 004010A6 rep stos dword ptr [edi] // 以上理解同main函数,ebp压栈时保存的地址是0018FF44h,即main函数栈开始开始的地方,然后ebp指向当前函数栈开始的地方 17: int c = 0; 004010A8 mov dword ptr [ebp-4],0 // 为c分配地址,并赋值 18: c = a + b; 004010AF mov eax,dword ptr [ebp+8] // 获得第一个参数 004010B2 add eax,dword ptr [ebp+0Ch] // 与第二个参数求和 004010B5 mov dword ptr [ebp-4],eax // 结果保存在c中 19: return c; 004010B8 mov eax,dword ptr [ebp-4] // 返回值存放在eax 20: } 004010BB pop edi // 现场恢复 004010BC pop esi 004010BD pop ebx 004010BE mov esp,ebp // 当前函数栈空间回收,以后可重新分配,esp=0018FEE8h 004010C0 pop ebp // ebp恢复为0018FF44h 004010C1 ret // 返回,等待执行函数调用的下一条指令 |
调用fun函数时的内存情况
局部变量i和j保存在48h空间的开始位置(高地址),即栈底附近,如下图
在调用fun函数之前,将形参从右至左依次压栈,如下图
call fun函数时执行跳转
补充
- 局部变量并不是以压栈的形式入栈的,而是mov进去的,而且是一次性将地址分配够(如上的48h和44h个字节)然后一个个mov进去,形参是以压栈的形式入栈的
- 函数返回值是通过寄存器返回的,估计当返回值超出寄存器的表示能力时会通过栈返回(未测试)
- 函数调用时,专门有个地方保存着函数的入口地址,到那里进行跳转执行
参考
实验代码来自国科大杨力祥老师的开源编译器源码分析课程