2019-2020-1 20199319《Linux内核原理与分析》第八周作业

可执行程序工作原理

ELF目标文件格式

1、目标文件（ABI，应用程序二进制接口）：编译器生成的文件。
2、目标文件的格式：out格式、COFF格式、PE(windows)格式、ELF(Linux)格式。
3、ELF(Executable and Linkable Format)即可执行和可链接的格式，是一个目标文件格式的标准。ELF格式的文件用于存储Linux程序。
4、ELF文件的3钟类型：可重定位文件、可执行文件、共享目标文件。

可重定位文件：这种一般是中间文件，还需要继续处理。由汇编器和编译器创建，一个源代码文件会生成一个可重定位文件。文件中保存着代码和适当的数据，用来和其他的目标文件一起来创建一个可执行文件、静态库文件或者共享目标文件（即动态库文件）。如Linux下.c文件都会生成一个同名的.o文件，这就是可重定位目标文件。
可执行文件：一般由多个可重定位文件结合生成，是完成了所有重定位工作和符号解析（除了运行时解析的共享库符号）的文件，文件中保存着一个用来执行的程序。
共享目标文件：共享库，是指可以被可执行文件或其他库文件使用的目标文件，例如标准C的库文件libc.so。可以简单理解为没有主函数main的“可执行”文件，只有一堆函数可供其他可执行文件调用。Linux下共享库后缀为.so文件。

5、ELF文件作用：ELF文件参与程序的链接（建立一个程序）和程序的执行（运行一个程序）。

如果用于编译和链接（可重定位文件），编译器和链接器将把ELF文件看作节的集合，所有节由节头表描述，程序头表可选。
如果用于加载执行（可执行文件），加载器将把ELF文件看作程序头表描述的段的集合，一个段可能包含多个节和节头表可选。
如果是共享文件，则两者都含有。

6、ELF格式
主体是各种节，还有描述这些节属性的信息(Program header table和Section header table)，以及ELF文件的整体描述信息(ELF header)。

ELF Header：描述该文件的组织情况以及本ELF文件的属性信息，其中最重要的是段头表（Program header table）和节头表（Section header table）
Section Header：节头表是由Section Header组成的表。用于链接的目标文件必须包含节区头部表，其他目标文件有没有这个表皆可。
Program Header：段头表和创建进程相关。

程序编译

预处理：gcc -E hello.c -o hello.i
编译：gcc -S hello.i -o hello.s -m32
汇编：gcc -c hello.s -o hello.o -m32
链接：gcc hello.o -o hello -m32 -static

预处理和编译完的文件均为文本文件，可用任意编辑工具查看。汇编和链接完的文件均为ELF文件。

链接与库

1、链接--从过程上讲：符号解析、重定位。根据链接时机：静态链接、动态链接。编译器默认使用动态链接，动态链接分为两种：可执行程序装载时动态链接、运行时动态链接。
2、有定义：函数对应的机器指令地址在当前文件中（有明确的地址）。
符号解析：编译器到其他的共享库中找到无定义符号对应的机器指令片段，然后把该片机器指令与hello.o拼接到一起，生成可执行文件hello。符号解析是一个递归过程。
重定位：把程序的逻辑地址空间变换成内存中的实际物理地址空间的过程，是实现多道程序在内存中同时运行的基础。分如下两步：

重定位节和符号定义；
重定位节中的符号引用。

3、符号表的查看方法：objdump –t xxx.o或readelf –s xxx.o
可重定位表的查看方法：readelf –r xxx.o
查看ELF可执行文件收不信息：readelf –h hello.m32.static（文件名）

程序装载

1、exec函数：execl、execlp、execle、execv、execvp、execve六个用以执行一个可执行文件的函数。
2、调用关系：sys_execve() -> do_execve() -> do_execve_common() -> exec_binprm() -> search_binary_handler() -> load_elf_binary() -> start_thread()
3、fork与execve的区别和联系

都是比较特殊的系统调用
fork在陷入内核态后有两次返回，第一次返回到原来父进程的位置继续向下执行，第二次是在子进程返回，这次会返回到ret_from_fork，之后正常返回用户态。
execve在执行时陷入内核态，在内核中调用execve加载的可执行文件把当前进程的可执行程序给覆盖了，当其返回时，返回的已经不是原来的那个可执行程序了，而是新的程序，返回的是新的可执行程序执行的起点，即main函数的大致位置（一般地址为0x8048xxx，由编译器设定）。

使用gdb跟踪execve系统调用内核处理函数sys_execve

cd LinuxKernel
rm -rf menu
git clone https://github.com/mengning/menu.git
cd menu
mv test_exec.c test.c
make rootfs

除了增加了execlp函数以外，还在Makefile中编译了hello.c，然后在生成根文件系统时把int和hello都放到rootfs.img中。

2、利用help命令查看，并执行exec命令

查看test.c,发现增加了exec系统调用的代码。

3、启动内核到调试状态，建立连接，在sys_exec、load_elf_binary、start_thread处设置断点

按“c”继续执行到sys_exec时输入exec命令，结果运行到sys_exec是停住。

继续执行到start_thread时，因为是静态链接，“elf_entry”指向可执行文件中定义的入口地址。使用“po new_ip”指令打印其指向的地址，“new_ip”是返回到用户态的第一条指令的地址，使用“readelf -h hello”命令查看hello的elf头部，可以看到定义的入口地址与“new_ip”所指向的地址一致。

总结

可执行文件开始执行的起点在修改调用execve系统调用时压入内核堆栈的EIP寄存器的值，此时标志着当前进程的可执行文件已经被完全替换为新的可执行文件，但实际开始执行可执行文件中的指令还需要等到执行可执行文件中定义的入口地址的位置，一般地址为0x8048xxx的位置。通过修改内核堆栈中EIP寄存器的值作为新程序的起点，让execve系统调用返回到用户态时执行新程序。

Linux内核如何支持多种不同的可执行文件格式？

static int init_elf_binfmt(void)
{
    register_binfmt(&elf_format); //把变量注册进内核链表，在链表里查找文件的格式
    return 0;
}

posted @ 2019-11-09 11:18 1993Fxn 阅读(165) 评论(0) 编辑收藏举报

20199319范晓楠