C C++ Java C# JS编译、执行过程的原理入门分析

C、C++是典型的编译型编程语言,编译链接后,点击则可执行。
JS,解释型脚本语言,则不需要进行编译,直接解释执行。
Java和C#则是所谓的高级语言,编译执行的方式做了很多处理,
尤其是C#,VS编译后生成的exe文件并非机器码,让很多程序员误解。
 
下文笔者将自己的理解和查阅的资料,和大家分享。有疏漏之处,请大家指出,共同学习。
 
1、C、C++
C、C++是典型的编译型编程语言,编译链接后,点击则可执行。
C、C++ 编译执行的原理,也比较简单,直接是源码经过编译链接之后,生成机器码组成的可执行文件,直接由OS进行Load加载执行。机器码对应硬件的指令,所以,可以直接点击执行。
 
2、JS
JS,解释型脚本语言,则不需要进行编译,直接解释执行。
 
3、Java
.java->编译->.class,Java源码经过编译后,生成.class文件,.class需要jvm解释执行,有部分.class文件也会通过JIT技术来直接生成机器语言,以提高执行效率。
Java这个语言很特殊。
你可以说它是编译型的。因为所有的Java代码都是要编译的,.java不经过编译就什么用都没有。
你可以说它是解释型的。因为java代码编译后不能直接运行,它是解释运行在JVM上的,所以它是解释运行的,那也就算是解释的了。
现在的JVM为了效率,都有一些JIT优化。它又会把.class的二进制代码编译为本地的代码直接运行,所以,又是编译的。
 
4、C#
C#的编译执行过程如下:
(1)C# => C#编译器 => IL(中间代码)
(2)IL => JIT => Native Code(目标程序)
(3)输入 => 目标程序 => 输出。
C#一共编译了两次,第二次发生在运行时,也就是你点击exe文件之后。
 
以HelloWorld程序为例,来说明exe文件的本质,和运行原理:
 
HelloWorld.cs
//HelloWorld.cs by Cornfield,2001
//csc HelloWorld.cs
using System;
class HelloWorld
{
   public static void Main()
   {
     Console.WriteLine("Hello World !");
   }
}

 

需要指出的是,我们一般使用C#编写生成一个HelloWorld的exe文件,其实,内部存放的并不是机器可以解读的机器码,不要被后缀名exe欺骗了。

 

 编译输出的HelloWorld.exe是一个由中间语言(IL),元数据(Metadata)和一个额外的被编译器添加的目标平台的标准可执行文件头(比如Win32平台就是加了一个标准Win32可执行文件头)组成的PE(portable executable,可移植执行体)文件,而不是传统的二进制可执行文件--虽然他们有着相同的扩展名。
 
中间语言是一组独立于CPU的指令集,它可以被即时编译器Jitter翻译成目标平台的本地代码。中间语言代码使得所有Microsoft.NET平台的高级语言C#,VB.NET,VC.NET等得以平台独立,以及语言之间实现互操作。元数据是一个内嵌于PE文件的表的集合。元数据描述了代码中的数据类型等一些通用语言运行时(Common Language Runtime)需要在代码执行时知道的信息。元数据使得.NET应用程序代码具备自描述特性,提供了类型安全保障,这在以前需要额外的类型库或接口定义语言(Interface Definition Language,简称IDL)。 

这样的解释可能还是有点让人困惑,那么我们来实际的解剖一下这个PE文件。我们采用的工具是.NET SDK Beta2自带的ildasm.exe,它可以帮助我们提取PE文件中的有关数据。我们键入命令"ildasm /output:HelloWorld.il HelloWorld.exe",一般可以得到两个输出文件:helloworld.il和helloworld.res。其中后者是提取的资源文件,我们暂且不管,我们来看helloworld.il文件。我们用"记事本"程序打开可以看到元数据和中间语言(IL)代码,由于篇幅关系,我们只将其中的中间语言代码提取出来列于下面,有关元数据的表项我们暂且不谈:
 
//  Microsoft (R) .NET Framework IL Disassembler.  Version 1.1.4322.573
//  Copyright (C) Microsoft Corporation 1998-2002. All rights reserved.

.assembly extern mscorlib
{
  .publickeytoken = (B7 7A 5C 56 19 34 E0 89 )                         // .z\V.4..
  .ver 1:0:5000:0
}
.assembly Class2
{
  // --- 下列自定义属性会自动添加,不要取消注释 -------
  //  .custom instance void [mscorlib]System.Diagnostics.DebuggableAttribute::.ctor(bool,
  //                                                                                bool) = ( 01 00 00 01 00 00 ) 
  .hash algorithm 0x00008004
  .ver 0:0:0:0
}
.module Class2.exe
// MVID: {A9D4A2DC-A401-4F5F-B16F-B3D40F584E59}
.imagebase 0x00400000
.subsystem 0x00000003
.file alignment 512
.corflags 0x00000001
// Image base: 0x070c0000
//
// ============== CLASS STRUCTURE DECLARATION ==================
//
.class public auto ansi beforefieldinit Test
       extends [mscorlib]System.Object
{
} // end of class Test

// =============================================================
// =============== GLOBAL FIELDS AND METHODS ===================
// =============================================================
// =============== CLASS MEMBERS DECLARATION ===================
//   note that class flags, 'extends' and 'implements' clauses
//          are provided here for information only

.class public auto ansi beforefieldinit Test
       extends [mscorlib]System.Object
{
  .method private hidebysig static void  Main() cil managed
  {
    .entrypoint
    // 代码大小       72 (0x48)
    .maxstack  4
    .locals init (int32[] V_0,
             int32 V_1,
             int32 V_2)
    IL_0000:  ldc.i4.5
    IL_0001:  newarr     [mscorlib]System.Int32
    IL_0006:  stloc.0
    IL_0007:  ldc.i4.0
    IL_0008:  stloc.1
    IL_0009:  br.s       IL_0015

    IL_000b:  ldloc.0
    IL_000c:  ldloc.1
    IL_000d:  ldloc.1
    IL_000e:  ldloc.1
    IL_000f:  mul
    IL_0010:  stelem.i4
    IL_0011:  ldloc.1
    IL_0012:  ldc.i4.1
    IL_0013:  add
    IL_0014:  stloc.1
    IL_0015:  ldloc.1
    IL_0016:  ldloc.0
    IL_0017:  ldlen
    IL_0018:  conv.i4
    IL_0019:  blt.s      IL_000b

    IL_001b:  ldc.i4.0
    IL_001c:  stloc.2
    IL_001d:  br.s       IL_003b

    IL_001f:  ldstr      "arr[{0}]={1}"
    IL_0024:  ldloc.2
    IL_0025:  box        [mscorlib]System.Int32
    IL_002a:  ldloc.0
    IL_002b:  ldloc.2
    IL_002c:  ldelem.i4
    IL_002d:  box        [mscorlib]System.Int32
    IL_0032:  call       void [mscorlib]System.Console::WriteLine(string,
                                                                  object,
                                                                  object)
    IL_0037:  ldloc.2
    IL_0038:  ldc.i4.1
    IL_0039:  add
    IL_003a:  stloc.2
    IL_003b:  ldloc.2
    IL_003c:  ldloc.0
    IL_003d:  ldlen
    IL_003e:  conv.i4
    IL_003f:  blt.s      IL_001f

    IL_0041:  call       int32 [mscorlib]System.Console::Read()
    IL_0046:  pop
    IL_0047:  ret
  } // end of method Test::Main

  .method public hidebysig specialname rtspecialname 
          instance void  .ctor() cil managed
  {
    // 代码大小       7 (0x7)
    .maxstack  1
    IL_0000:  ldarg.0
    IL_0001:  call       instance void [mscorlib]System.Object::.ctor()
    IL_0006:  ret
  } // end of method Test::.ctor

} // end of class Test

// =============================================================
//*********** 反汇编完成 ***********************
// WARNING: Created Win32 resource file Class2.res

  

我们粗略的感受是它很类似于早先的汇编语言,但它具有了对象定义和操作的功能。我们可以看到它定义并实现了一个继承自System.Object 的HelloWorld类及两个函数:Main()和.ctor()。其中.ctor()是HelloWorld类的构造函数,可在"HelloWorld.cs"源代码中我们并没有定义构造函数呀--是的,我们没有定义构造函数,但C#的编译器为我们添加了它。你还可以看到C#编译器也强制HelloWorld类继承System.Object类,虽然这个我们也没有指定。

一起来看看典型的C#/.NET应用程序的执行过程:
那么PE文件是怎么执行的呢?下面是一个典型的C#/.NET应用程序的执行过程:

(1)用户执行编译器输出的应用程序(PE文件),操作系统载入PE文件,以及其他的DLL(.NET动态连接库)。 
(2)操作系统装载器根据前面PE文件中的可执行文件头跳转到程序的入口点。显然,操作系统并不能执行中间语言,该入口点也被设计为跳转到mscoree.dll(.NET平台的核心支持DLL)的_ CorExeMain()函数入口。 
(3)CorExeMain()函数开始执行PE文件中的中间语言代码。这里的执行的意思是通用语言运行时按照调用的对象方法为单位,用即时编译器JIT将中间语言编译成本地机二进制代码,执行并根据需要存于机器缓存。 
程序的执行过程中,垃圾收集器负责内存的分配,释放等管理功能。 
程序执行完毕,操作系统卸载应用程序。
 
总之,在运行 Microsoft 中间语言 (MSIL) 之前,也就是我们使用VS编译后生成的exe文件,必须先根据公共语言运行库将其编译为适合目标计算机体系结构的本机代码。
 
C#将IL转为机器码的两种方法及区别 :
.NET Framework 提供了两种方式来执行此类转换:.NET Framework 实时 (JIT) 编译器 和 .NET Framework 本机映像生成器 (Ngen.exe)。
 
JIT方式:由于编译器将本地代码保存在动态内存中,所以关闭程序时本地代码将发生丢失。当再次启动程序或者同时运行程序的两个实例时,JIT编译器将再次将IL代码编译为本地指令。
Ngen方式:公共语言运行库支持一种提前编译模式。此提前编译模式使用本机映像生成器 (Ngen.exe) 将 MSIL 程序集转换为本机代码,其作用与 JIT 编译器极为相似。
Ngen.exe 的操作与 JIT 编译器的操作有三点不同:
(1)它在应用程序运行之前而不是运行过程中执行从 MSIL 到本机代码的转换。
(2)它一次编译一个整个的程序集,而不是一次编译一个方法。
(3)它将本机映像缓存中生成的代码以文件的形式持久保存在磁盘上。
 
引用:

 

posted @ 2013-12-09 16:35  yylwuwei  阅读(859)  评论(0编辑  收藏  举报