c++ 从编译到执行

参考博客
原理分析
结合实例

看别人的博客上拼出答案.不会就先模仿吧.
这个是今日头条面试时候的一个题目,当时别提答的多烂了,感觉一个题目准备深了还是非常耗费时间的.小论文一样.c/c++从编译到执行要经历以下过程:

源代码-->预处理-->编译-->优化-->汇编-->链接-->目标程序

我们先来敲一个hello.cpp 吧.

#include<stdio.h>
int main()
{
  printf("Hello world\n");
  return 0;
}

预处理过程

要进行第一步,预处理过程,要干的事情有哪些呢, 要处理预编处理宏定义,条件编译指令,条件包含指令,特殊符号.
对于宏定义指令,会将宏定义变量替换成对应的部分.对条件编译指令,预处理过程按照程序定义过滤掉不必要的部分. 对条件包含指令,预编译程序会把它通通加入到目标文件当中. 对于一些特殊符号,预编译程序会识别出来并用合适的值替换.
综合来说实际上就是一个替换的动作,处理哪些带#符号的命令和一些特殊符号.
我们如何得到这个文件呢,linux可以敲下面的命令:
gcc -E hello.cpp hw.i
得到预处理之后的文件.

编译过程

词法分析,语法分析,在确定所有的指令都符合语法规则后,将其翻译成目标代码,最终目标文件是目标代码.
在编译的过程中,所有的变量都是虚拟地址.在汇编文件中有一个表,存储了虚拟地址对应的变量名称.
直接 g++ -S hello.i -o hello.s

优化过程

优化处理是编译系统中一项比较艰深的技术。它涉及到的问题不仅同编译技术本身有关,而且同机器的硬件环境也有很大的关系。优化一部分是对中间代码的优化。这种优化不依赖于具体的计算机。另一种优化则主要针对目标代码的生成而进行的。上图中,我们将优化阶段放在编译程序的后面,这是一种比较笼统的表示。

对于前一种优化,主要的工作是删除公共表达式、循环优化(代码外提、强度削弱、变换循环控制条件、已知量的合并等)、复写传播,以及无用赋值的删除,等等。

后一种类型的优化同机器的硬件结构密切相关,最主要的是考虑是如何充分利用机器的各个硬件寄存器存放的有关变量的值,以减少对于内存的访问次数。另外,如何根据机器硬件执行指令的特点(如流水线、RISC、CISC、VLIW等)而对指令进行一些调整使目标代码比较短,执行的效率比较高,也是一个重要的研究课题。

经过优化得到的汇编代码必须经过汇编程序的汇编转换成相应的机器指令,方可能被机器执行。

汇编过程

经历汇编过程编译转换成机器码,最终形成与源程序等效的机器码.目标文件由段组成. 通常一个目标文件至少有两个段
代码段和数据段.代码段包含了可读可执行的程序的指令. 数据段保存各种全局变量和静态的数据.一般数据段可读可写可执行.
gcc -c hello.c -o hello.o 这里的hello.o就是最后的机器码.作为一个静态库的话可以说已经完成了,不需要后面的流程.

UNIX环境下主要有三种类型的目标文件:

(1)可重定位文件  其中包含有适合于其它目标文件链接来创建一个可执行的或者共享的目标文件的代码和数据。

(2)共享的目标文件  这种文件存放了适合于在两种上下文里链接的代码和数据。第一种事链接程序可把它与其它可重定位文件及共享的目标文件一起处理来创建另一个目标文件;第二种是动态链接程序将它与另一个可执行文件及其它的共享目标文件结合到一起,创建一个进程映象。

(3)可执行文件   它包含了一个可以被操作系统创建一个进程来执行之的文件。

汇编程序生成的实际上是第一种类型的目标文件。对于后两种还需要其他的一些处理方能得到,这个就是链接程序的工作了。

链接程序

由汇编程序生成的目标文件并不能立即就被执行,其中可能还有许多没有解决的问题。例如,某个源文件中的函数可能引用了另一个源文件中定义的某个符号(如变量或者函数调用等);在程序中可能调用了某个库文件中的函数,等等。所有的这些问题,都需要经链接程序的处理方能得以解决。

链接程序的主要工作就是将有关的目标文件彼此相连接,也即将在一个文件中引用的符号同该符号在另外一个文件中的定义连接起来,使得所有的这些目标文件成为一个能够诶操作系统装入执行的统一整体。

根据开发人员指定的同库函数的链接方式的不同,链接处理可分为两种:

(1)静态链接 在这种链接方式下,函数的代码将从其所在地静态链接库中被拷贝到最终的可执行程序中。这样该程序在被执行时这些代码将被装入到该进程的虚拟地址空间中。静态链接库实际上是一个目标文件的集合,其中的每个文件含有库中的一个或者一组相关函数的代码。(个人备注:静态链接将链接库的代码复制到可执行程序中,使得可执行程序体积变大)

(2)动态链接  在此种方式下,函数的代码被放到称作是动态链接库或共享对象的某个目标文件中。链接程序此时所作的只是在最终的可执行程序中记录下共享对象的名字以及其它少量的登记信息。在此可执行文件被执行时,动态链接库的全部内容将被映射到运行时相应进程的虚地址空间。动态链接程序将根据可执行程序中记录的信息找到相应的函数代码。(个人备注:动态链接指的是需要链接的代码放到一个共享对象中,共享对象映射到进程虚地址空间,链接程序记录可执行程序将来需要用的代码信息,根据这些信息迅速定位相应的代码片段。)

对于可执行文件中的函数调用,可分别采用动态链接或静态链接的方法。使用动态链接能够使最终的可执行文件比较短小,并且当共享对象被多个进程使用时能节约一些内存,因为在内存中只需要保存一份此共享对象的代码。但并不是使用动态链接就一定比使用静态链接要优越。在某些情况下动态链接可能带来一些性能上损害。

经过上述五个过程,C源程序就最终被转换成可执行文件了。缺省情况下这个可执行文件的名字被命名为a.out。

关于动态链接库与静态链接库的创建与区别可以看下这篇博文

posted @ 2017-07-28 12:16  bzt007  阅读(267)  评论(0编辑  收藏  举报