[汇编与C语言关系]2. main函数与启动例程

  为什么汇编程序的入口是_start,而C程序的入口是main函数呢?以下就来解释这个问题

  在《x86汇编程序基础(AT&T语法)》一文中我们汇编和链接的步骤是:

$ as hello.s -o hello.o
$ ld hello.o -o hello

  我们用gcc main.c -o main开编译一个c程序,其实际分为三个步骤:编译、汇编、链接

$ gcc -S main.c   生成汇编代码
$ gcc -c main.s   生成目标文件
$ gcc main.o    生成可执行文件

  我们先前在《x86汇编程序基础(AT&T语法)》中由第一个汇编程序生成的目标文件hello.o我们使用ld来链接的,那能不能用gcc呢?如下:

  

  报了两个错误:1. _start有多处定义,一个定义是我们汇编代码中的。另一个定义来自/usr/lib/cr1l.o;2. crt1.o的_start函数要调用main函数,而我们的汇编代码中没有提供main函数的定义。最后一行显示这些错误提示是ld报出的。所以如果我们用gcc做链接,gcc实际是调用ld将目标文件crt1.o和我们写的hello.o链接在一起。

  如果目标文件是由C程序编译生成的,用gcc做链接就没错了,整个程序的入口是crtl.o中提供的_start,它首先做一些初始化操作(以下称为启动例程,Startup Routine),然后调用C代码中提供的main函数。_start才是真正的入口点,main是被_start调用的。  我们继续上一篇文章《[汇编与C语言关系]1.函数调用》研究,gcc main.o -o main其实是调用ld做链接的,相当于这样的命令:

$ ld /usr/lib/crt1.o /usr/lib/crti.o main.o -o main -lc -dynamic-linker /lib/ld-linux.so.2

  除了crt1.o之外还有crti.o,这两个目标文件和我们的hello.o链接在一起生成可执行文件main。-lc表示需要链接libc库,-lc选项是gcc默认的,不用写,而对于ld则不是默认选项,所以要写上。-dynamic-linker /lib/ld-linux.so.2指定动态链接器是/lib/ld-linux.so.2。

  我们可以用readelf查看crt1.o和crti.o里面的内容。在这里我们只关心符号表,如果只看符号表,可以用readelf命令的-s选项,也可以用nm命令。

  

$ nm /usr/lib/crt1.o
00000000 R _IO_stdin_used
00000000 D __data_start
             U __libc_csu_fini
             U __libc_csu_init
             U __libc_start_main
00000000 R _fp_hw
00000000 T _start
00000000 W data_start
U main
$ nm /usr/lib/crti.o
              U _GLOBAL_OFFSET_TABLE_
              w __gmon_start__
00000000 T _fini
00000000 T _init

  U main这一行表示main这个符号在crt1.o中用到了,但是没有定义(U表示Undefined),因此需要别的目标文件提供一个定义并且和crt1.o链接在一起。具体来说,在crt1.o中要用到main这个符号所代表的地址,例如有一条指令是push $符号main所代表的地址, 但不知道这个地址是多少,所以在crt1.o中这条指令暂时写成$0x0,等到和main.o链接成可执行文件时就知道这个地址是多少了,比如是0x80483c4,那么可执行文件main中的这条指令就被链接器改成push $0x80483c4。链接器在这里起到符号解析(Symbol Resolution)的作用。链接器还有一种作用就是重定位作用,而链接器编辑的是目标文件,所以链接器也是一种编辑器,vi等其他编辑器编辑的是源文件,而链接器编辑的是目标文件,所以链接器也叫Link Editor。T _start这一行表示_start这个符号在crt1.o中提供了定义,这个符号的类型是代码(T表示Text)。我们从上面的输出结果中选取几个符号用图示说明它们之间的关系:

  

  上边我们写的ld命令做了简化,gcc在链接过程中还用到了其他几个目标文件,所以上图多画了一个框,表示组成可执行文件main的除了main.o、crt1.o和crti.o之外还有其他目标文件,gcc -v选项可以了解详细的编译过程。

  链接生成的可执行文件main中包含了各目标文件所定义的符号, 通过反汇编可以看到这些符号的定义:

  crt1.o中的未定义符号main在main.o中定义了,所以链接在一起就没有问题了。crt1.o还有一个未定义符号_libc_start_main在其他几个目标文件中也没有定义,所以在可执行文件main中仍然是个未定义符号。这个符号是在libc中定义的,libc并不像其他目标文件一样链接到可执行文件main中,而是在运行时做动态链接:

    1.操作系统在加载执行main这个程序时,首先查看它有没有需要动态链接的未定义符号。

    2. 如果需要做动态链接,就查看这个程序制定了哪些共享库(我们用-lc指定了libc)以及用什么动态链接器来做动态链接(我们用 -dynamic-linker /lib/ld-linux.so.2指定了动态链接器)。

    3. 动态链接器在共享库中查找这些符号的定义,完成链接过程。

  了解了这些以后我们来看_start的反汇编:

  

  首先将一系列参数压栈,然后调用libc的库函数__libc_start_main做初始化工作,其中最后一个压栈的参数push $0x80483c4是main函数的地址,__libc_start_main在完成初始化工作之后会调用main函数。由于__libc_start_main需要动态链接,所以这个库函数的指令可以在可执行文件main的反汇编中肯定是找不到的,然而我们找到了这个:

  

  一开始看到这以为是libc被链接进去了,其实不是。这三条指令位于.plt段不是.text段,.plt段协助完成动态链接的过程。

  main函数的原型是int main(int argc, char *argv[]),也就是说启动例程会传两个参数给main函数。

  由于main函数是被启动例程调用的,所以从main函数return时仍返回到启动例程中,main函数的返回值被启动例程得到,如果将启动例程表示成等价的C代码(实际上启动例程一般是直接用汇编写的),则它调用main函数的形式是:

exit(main(argc, argv));

   也就是说启动例程得到main函数的返回值后,会立刻用它做参数调用exit函数。exit也是lib中的函数,它首先做一些清理工作,然后调用_exit系统调用终止进程,main函数的返回值最终被传给_exit系统调用,成为进程的退出状态。我们也可以在main函数中直接调用exit函数终止进程而不返回到启动例程。

  注意,退出状态只有8位,而且被Shell解释成无符号数,如果将上面的代码改为exit(-1);或return -1;则echo $?会输出255。

  使用_exit函数需要包含头文件unistd.h。

posted @ 2016-08-30 08:22  orlion  阅读(3058)  评论(3编辑  收藏  举报