深究Java虚拟机

摘自:http://www.chinaaspx.com/comm/dotnetbbs/Showtopic.aspx?Forum_ID=33&Id=302411&PPage=1

 

深究Java虚拟机
2008-9-22
 JVM:Java Virtual Machine Java虚拟机
JRE:Java Runtime Environment Java运行时环境
ABI:Application Binary Interface 应用二进制接口,是一个程序在运行时应用的环境,也是一种可执行文件的格式。操作系统都有自己的进程地址控件,硬件系统也各不相同;java在所有的计算机上都使用相同的ABI;
java运行时环境JRE,包括java虚拟机,是java ABI与各种硬件/操作系统ABI之间的桥梁。

1)java源代码编译后生成的目标代码是一种字节码(bytecode),与其他语言不同的是:java的字节码是一种中立结构的机器代码(不是任何现有系统上的二进制指令代码),通过JVM可以快速地解释并运行在任何特定的计算机上。
2)java程序的执行通过JVM实现;
3)一般情况下,JVM是在运行java程序时调用的;
4)JVM读取字节码程序,解释或翻译成实际的机器指令后再执行,实行了java的“一次编写,多处运行”的特点;

Java虚拟机是什么

Java虚拟机之所以称为“虚拟”,就是因为它仅仅是由一个规范来定义的抽象计算机。要运行某个Java程序,首先需要一个符合该规范的具体实现。

下面主要讨论这个规范本身。
    要理解Java虚拟机,你必须意识到,当你说“Java虚拟机”时,可能指的是如下三种不同的东西:

<!--[if !supportLists]-->·   抽象规范 

<!--[if !supportLists]-->·    <!--[endif]-->一个具体的实现 

·   一个运行中的虚拟机实例

Java虚拟机抽象规范仅仅是个概念。该规范的具体实现,可能来自多个提供商,并存在多个平台上。它或者完全用软件实现,或者以硬件和软件相结合的方式来实现。当运行一个Java程序的同时,也就在运行了一个Java虚拟机实例。
对JVM规范的抽象说明是一些概念的集合,它们已经在书《The Java Virtual Machine Specification》(《Java虚拟机规范》)中被详细地描述了;对JVM的具体实现要么是软件,要么是软件和硬件的组合,它已经被许多生产厂商所实现,并存在于多种平台之上;运行Java程序的任务由JVM的运行期实例单个承担。在本文中我们所讨论的Java虚拟机(JVM)主要针对第三种情况而言。它可以被看成一个想象中的机器,在实际的计算机上通过软件模拟来实现,有自己想象中的硬件,如处理器、堆栈、寄存器等,还有自己相应的指令系统。
  JVM在它的生存周期中有一个明确的任务,那就是运行Java程序,因此当Java程序启动的时候,就产生JVM的一个实例;当程序运行结束的时候,该实例也跟着消失了。下面我们从JVM的体系结构和它的运行过程这两个方面来对它进行比较深入的研究。
<!--[if !supportLineBreakNewLine]-->
<!--[endif]-->

Java虚拟机的生命周期

一个运行时的Java虚拟机实例的天职就是:负责运行一个Java程序。当启动一个Java程序时,一个虚拟机实例也就诞生了。当该程序关闭退出,这个虚拟机实例也就随之消亡。每个Java程序都运行在于自己的Java虚拟机实例中。Java虚拟机实例通过调用某个初始类的main()方法来运行一个Java程序。而这个main()方法必须是public,static,返回值为void。main()方法作为该程序初始线程的起点,任何其他的线程都是由这个初始线程启动的。
   Java虚拟机内部有两种线程:守护线程和非守护线程。

守护线程通常由虚拟机自己使用的,比如执行垃圾收集任务的线程。但是,Java程序也可以把它的创建的任何线程标记为守护线程。

而Java程序中的初始线程,就是开始于main()的那个,是非守护线程。只要有非守护线程在运行,那么这个Java程序也在继续运行,只有该程序中所有的非守护线程都终止时,虚拟机实例将自动退出。

Java虚拟机的体系结构
Java虚拟机的结构分为:类装载子系统执行引擎运行时数据区本地方法接口
其中运行时数据区又分为:方法区,堆,Java栈,PC寄存器,本地方法栈。

                                                                                                                    

   Java虚拟机结构图

Java虚拟机由五个部分组成:一组指令集、一组寄存器、一个栈、一个无用单元收集堆(Garbage-collected-heap)、一个方法区域。这五部分是Java虚拟机的逻辑成份,不依赖任何实现技术或组织方式,但它们的功能必须在真实机器上以某种方式实现。

类装载子系统(class loader)
Java虚拟机中,负责查找并装载类型的那部分称为类装载子系统。
Java虚拟机有两种类装载器:启动类装载器和用户自定义类装载器。

启动类装载器是Java虚拟机实现的一部分。

用户自定义类装载器是Java程序的一部分。
类装载器的动作:

<!--[if !supportLists]-->1.        <!--[endif]-->装载---查找并装载类型的二进制数据

<!--[if !supportLists]-->2.        <!--[endif]-->连接---执行验证,准备,以及解析(可选)
验证:确保被导入类型的正确性
准备:为类变量分配内存,并将其初始化为默认值
把类型中的符号引用换为直接引用

<!--[if !supportLists]-->3.        <!--[endif]-->初始化---把类变量初始化为正确的初始值 

执行引擎

处于JVM的核心位置,在Java虚拟机规范中,它的行为是由指令集所决定的。尽管对于每条指令,规范很详细地说明了当JVM执行字节码遇到指令时,它的实现应该做什么,但对于怎么做却言之甚少。Java虚拟机支持大约248个字节码。每个字节码执行一种基本的CPU运算,例如,把一个整数加到寄存器,子程序转移等。Java指令集相当于Java程序的汇编语言。

由于指令系统的简单性,使得虚拟机执行的过程十分简单,从而有利于提高执行的效率。指令中操作数的数量和大小是由操作符决定的。如果操作数比一个字节大,那么它存储的顺序是高位字节优先。例如,一个16位的参数存放时占用两个字节,其值为: 第一个字节*256+第二个字节字节码。

指令流一般只是字节对齐的。指令tableswitch和lookup是例外,在这两条指令内部要求强制的4字节边界对齐。

Java指令集


Java虚拟机支持大约248个字节码。每个字节码执行一种基本的CPU运算,例如,把一个整数加到寄存器,子程序转移等。Java指令集相当于Java程序的汇编语言。

Java指令集中的指令包含一个单字节的操作符,用于指定要执行的操作,还有0个或多个操作数,提供操作所需的参数或数据。许多指令没有操作数,仅由一个单字节的操作符构成。 

虚拟机的内层循环的执行过程如下:  

do{

取一个操作符字节;

根据操作符的值执行一个动作;

}while(程序未结束) 

由于指令系统的简单性,使得虚拟机执行的过程十分简单,从而有利于提高执行的效率。指令中操作数的数量和大小是由操作符决定的。如果操作数比一个字节大,那么它存储的顺序是高位字节优先。例如,一个16位的参数存放时占用两个字节,其值为: 

第一个字节*256+第二个字节字节码指令流一般只是字节对齐的。指令tableswitch和lookup是例外,在这两条指令内部要求强制的4字节边界对齐。 

运行时数据区

方法区
  在Java虚拟机中,被装载类型的信息存储在一个逻辑上被称为方法区的内存中。当虚拟机装载某个类型时,它使用类装载器定位相应的class文件,然后读入这个class文件,然后将它传输到虚拟机中,紧接着虚拟机提取其中的类型信息,并将这些信息存储到方法区。该类型中的类(静态)变量同样也是存储在方法区中。方法区的大小不必固定,可以根据需要动态调整。方法区也可以被垃圾收集,因为虚拟机允许通过用户定义的类装载器来动态扩展Java程序,因此,一些类也会成为“不再引用”的类。 
  对于每个装载的类型,虚拟机都会在方法区中存储以下类型信息:

<!--[if !supportLists]-->·            <!--[endif]-->这个类型的全限定名。

<!--[if !supportLists]-->·            <!--[endif]-->这个类型的直接超类的全限定名(除非是java.lang.Object,无超类)

<!--[if !supportLists]-->·            <!--[endif]-->这个类型是类类型还是接口类型。

<!--[if !supportLists]-->·            <!--[endif]-->这个类型的访问修饰符(public,abstract ...)

<!--[if !supportLists]-->·            <!--[endif]-->任何直接超接口的全限定名的有序列表

除了上面列出的基本类型信息外,虚拟机还为每个被装载的类型存储以下信息

<!--[if !supportLists]-->·            <!--[endif]-->该类型的常量池

<!--[if !supportLists]-->·            <!--[endif]-->字段信息

<!--[if !supportLists]-->·            <!--[endif]-->方法信息

<!--[if !supportLists]-->·            <!--[endif]-->除了常量以外所有类(静态)变量

<!--[if !supportLists]-->·            <!--[endif]-->一个到类ClassLoader的引用

<!--[if !supportLists]-->·            <!--[endif]-->一个到Class类的引用

方法区与传统语言中的编译后代码或是Unix进程中的正文段类似。它保存方法代码(编译后的java代码)和符号表。在当前的Java实现中,方法代码不包括在无用单元收集堆中,但计划在将来的版本中实现。每个类文件包含了一个Java类或一个Java界面的编译后的代码。可以说类文件是Java语言的执行代码文件。为了保证类文件的平台无关性,Java虚拟机规范中对类文件的格式也作了详细的说明。其具体细节请参考Sun公司的Java虚拟机规范。

无用单元收集堆

Java的堆是一个运行时数据区,类的实例(对象)从中分配空间。Java语言具有无用单元收集能力:它不给程序员显式释放对象的能力。Java不规定具体使用的无用单元收集算法,可以根据系统的需求使用各种各样的算法。

无用单元收集堆(Garbage-collected-heap)

 栈


Java虚拟机的栈有三个区域:局部变量区、运行环境区、操作数区。


(1)局部变量区 每个Java方法使用一个固定大小的局部变量集。它们按照与vars寄存器的字偏移量来寻址。局部变量都是32位的。长整数和双精度浮点数占据了两个局部变量的空间,却按照第一个局部变量的索引来寻址。(例如,一个具有索引n的局部变量,如果是一个双精度浮点数,那么它实际占据了索引n和n+1所代表的存储空间。)虚拟机规范并不要求在局部变量中的64位的值是64位对齐的。虚拟机提供了把局部变量中的值装载到操作数栈的指令,也提供了把操作数栈中的值写入局部变量的指令。


(2)运行环境区 在运行环境中包含的信息用于动态链接,正常的方法返回以及异常传播。


·动态链接

运行环境包括对指向当前类和当前方法的解释器符号表的指针,用于支持方法代码的动态链接。方法的class文件代码在引用要调用的方法和要访问的变量时使用符号。动态链接把符号形式的方法调用翻译成实际方法调用,装载必要的类以解释还没有定义的符号,并把变量访问翻译成与这些变量运行时的存储结构相应的偏移地址。动态链接方法和变量使得方法中使用的其它类的变化不会影响到本程序的代码。


·正常的方法返回

如果当前方法正常地结束了,在执行了一条具有正确类型的返回指令时,调用的方法会得到一个返回值。执行环境在正常返回的情况下用于恢复调用者的寄存器,并把调用者的程序计数器增加一个恰当的数值,以跳过已执行过的方法调用指令,然后在调用者的执行环境中继续执行下去。


·异常和错误传播

异常情况在Java中被称作Error(错误)或Exception(异常),是Throwable类的子类,在程序中的原因是:①动态链接错,如无法找到所需的class文件。②运行时错,如对一个空指针的引用


·程序使用了throw语句。

当异常发生时,Java虚拟机采取如下措施:

·检查与当前方法相联系的catch子句表。每个catch子句包含其有效指令范围,能够处理的异常类型,以及处理异常的代码块地址。

·与异常相匹配的catch子句应该符合下面的条件:造成异常的指令在其指令范围之内,发生的异常类型是其能处理的异常类型的子类型。如果找到了匹配的catch子句,那么系统转移到指定的异常处理块处执行;如果没有找到异常处理块,重复寻找匹配的catch子句的过程,直到当前方法的所有嵌套的catch子句都被检查过。

·由于虚拟机从第一个匹配的catch子句处继续执行,所以catch子句表中的顺序是很重要的。因为Java代码是结构化的,因此总可以把某个方法的所有的异常处理器都按序排列到一个表中,对任意可能的程序计数器的值,都可以用线性的顺序找到合适的异常处理块,以处理在该程序计数器值下发生的异常情况。

·如果找不到匹配的catch子句,那么当前方法得到一个"未截获异常"的结果并返回到当前方法的调用者,好像异常刚刚在其调用者中发生一样。如果在调用者中仍然没有找到相应的异常处理块,那么这种错误传播将被继续下去。如果错误被传播到最顶层,那么系统将调用一个缺省的异常处理块。

(3)操作数栈区 机器指令只从操作数栈中取操作数,对它们进行操作,并把结果返回到栈中。选择栈结构的原因是:在只有少量寄存器或非通用寄存器的机器(如Intel486)上,也能够高效地模拟虚拟机的行为。操作数栈是32位的。它用于给方法传递参数,并从方法接收结果,也用于支持操作的参数,并保存操作的结果。例如,iadd指令将两个整数相加。相加的两个整数应该是操作数栈顶的两个字。这两个字是由先前的指令压进堆栈的。这两个整数将从堆栈弹出、相加,并把结果压回到操作数栈中。


每个原始数据类型都有专门的指令对它们进行必须的操作。每个操作数在栈中需要一个存储位置,除了long和double型,它们需要两个位置。操作数只能被适用于其类型的操作符所操作。例如,压入两个int类型的数,如果把它们当作是一个long类型的数则是非法的。在Sun的虚拟机实现中,这个限制由字节码验证器强制实行。但是,有少数操作(操作符dupe和swap),用于对运行时数据区进行操作时是不考虑类型的。

寄存器


Java虚拟机的寄存器用于保存机器的运行状态,与微处理器中的某些专用寄存器类似。


Java虚拟机的寄存器有四种:

pc:Java程序计数器。

optop:指向操作数栈顶端的指针。

frame:指向当前执行方法的执行环境的指针。

vars:指向当前执行方法的局部变量区第一个变量的指针。


Java虚拟机是栈式的,它不定义或使用寄存器来传递或接受参数,其目的是为了保证指令集的简洁性和实现时的高效性(特别是对于寄存器数目不多的处理器)。

所有寄存器都是32位的。

本地方法接口
Java应用程序设计接口
Java Application Programming Interface简称Java API,其中文名为Java应用程序设计接口。它是一个软件集合,其中有许多开发时所需要的控件,可以用它来辅助开发。


Java API和JVM构成了Java运行的基本环境,这两种软件整合在一起处于计算机之上,通过这两种软件,Java平台把一个Java应用程序从硬件系统分离开,从而很好地保证了程序的独立性。为了更好地适应开发的需要,Java的设计者们提供了3种版本的Java平台:Java 2 Micro Edition (J2ME )、Java 2 Standard Edition(J2SE)和 Java 2 Enterprise Edition (J2EE),每一种版本都提供了丰富的开发工具以适应不同的开发需要。

Java虚拟机的运行过程

  上面对虚拟机的各个部分进行了比较详细的说明,下面通过一个具体的例子来分析它的运行过程。

  虚拟机通过调用某个指定类的方法main启动,传递给main一个字符串数组参数,使指定的类被装载,同时链接该类所使用的其它的类型,并且初始化它们。例如对于程序:

class HelloApp
{
 public static void main(String[] args)
 {
  System.out.println("Hello World!");
  for (int i = 0; i < args.length; i++ )
  {
   System.out.println(args[i]);
  }
 }
}


  编译后在命令行模式下键入: java HelloApp run virtual machine

  将通过调用HelloApp的方法main来启动java虚拟机,传递给main一个包含三个字符串"run"、"virtual"、"machine"的数组。现在我们略述虚拟机在执行HelloApp时可能采取的步骤。

  开始试图执行类HelloApp的main方法,发现该类并没有被装载,也就是说虚拟机当前不包含该类的二进制代表,于是虚拟机使用ClassLoader试图寻找这样的二进制代表。如果这个进程失败,则抛出一个异常。类被装载后同时在main方法被调用之前,必须对类HelloApp与其它类型进行链接然后初始化。链接包含三个阶段:检验,准备和解析。检验检查被装载的主类的符号和语义,准备则创建类或接口的静态域以及把这些域初始化为标准的默认值,解析负责检查主类对其它类或接口的符号引用,在这一步它是可选的。类的初始化是对类中声明的静态初始化函数和静态域的初始化构造方法的执行。一个类在初始化之前它的父类必须被初始化。整个过程如下:

                                                                                                  

<!--[endif]-->
图4:虚拟机的运行过程

  结束语

  本文通过对JVM的体系结构的深入研究以及一个Java程序执行时虚拟机的运行过程的详细分析,意在剖析清楚Java虚拟机的机理。

                                                                                                                     

<!--[endif]-->
我们可以通过helloworld来理解这几个缩写词的具体含义:

public class HelloWorld {
  public static void main(String[] args) {
    System.out.println("helloworld");
  }
}



编译之后, 我们得到了HelloWorld.class(图中的"Your program's class files")
在HelloWorld里面, 我们调用了 JAVA API中的 java.lang.System这个类的静态成员对象 out, out 的静态方法: public static void println(String string);

然后我们让虚拟机器来执行这个HelloWorld。
1. 虚拟机会在classpath中找到HelloWorld.class。
2. 虚拟机中的解释器(interpret)会把HelloWorld.class解释成字节码。
3. 把解释后的字节码交由execution engin执行。
4. execution engin会调用native method(即平台相关的字节码)来在host system的stdout(显示器)的指定部分打印出指定的字符串。
5. 这样, 我们就看到"helloworld"字样了。

有了这个流程后, 我们就好理解上面几个术语了:
a. JDK: java develop kit (JAVA API包)
b. SDK: software develop kit, 以前JDK 叫做java software develop kit, 后来出了1.2版本后, 就改名叫jdk了, 省时省力, 节约成本。
c. JRE. java runtime environment 我们的helloworld必须在JRE(JAVA运行环境,JAVA运行环境又叫JAVA平台)里面, 才能跑起来。 所以, 显然地, JREJRE顾名思义只是java class运行时需要的环境,JDK不仅包含了JRE,还提供了开发调试java程序需要的工具 。

d. JVM java virtual machine. 简单地讲, 就是把class文件变成字节码, 然后送到excution engin中执行。 而为什么叫虚拟机, 而不叫真实机呢? 因为JVM本身是又不能运算, 又不能让显示器显示"helloworld"的, 它只能再调用host system的API, 比如在w32里面就会调c++的API, 来让CPU帮他做做算术运算, 来调用c++里面的API来控制显示器显示显示字符串。 而这些API不是JDK里面有的,我们平时又看不见的,所以我们就叫它native api了(亦曰私房XX)。
<!--[if !supportLineBreakNewLine]-->
<!--[endif]-->

编译之后, 我们得到了HelloWorld.class(图中的"Your program's class files")
在HelloWorld里面, 我们调用了 JAVA API中的 java.lang.System这个类的静态成员对象 out, out 的静态方法: public static void println(String string);

然后我们让虚拟机器来执行这个HelloWorld。
1. 虚拟机会在classpath中找到HelloWorld.class。
2. 虚拟机中的解释器(interpret)会把HelloWorld.class解释成字节码。
3. 把解释后的字节码交由execution engin执行。
4. execution engin会调用native method(即平台相关的字节码)来在host system的stdout(显示器)的指定部分打印出指定的字符串。
5. 这样, 我们就看到"helloworld"字样了。

有了这个流程后, 我们就好理解上面几个术语了:
a. JDK: java develop kit (JAVA API包)
b. SDK: software develop kit, 以前JDK 叫做java software develop kit, 后来出了1.2版本后, 就改名叫jdk了, 省时省力, 节约成本。
c. JRE. java runtime environment 我们的helloworld必须在JRE(JAVA运行环境,JAVA运行环境又叫JAVA平台)里面, 才能跑起来。 所以, 显然地, JREJRE顾名思义只是java class运行时需要的环境,JDK不仅包含了JRE,还提供了开发调试java程序需要的工具 。

d. JVM java virtual machine. 简单地讲, 就是把class文件变成字节码, 然后送到excution engin中执行。 而为什么叫虚拟机, 而不叫真实机呢? 因为JVM本身是又不能运算, 又不能让显示器显示"helloworld"的, 它只能再调用host system的API, 比如在w32里面就会调c++的API, 来让CPU帮他做做算术运算, 来调用c++里面的API来控制显示器显示显示字符串。 而这些API不是JDK里面有的,我们平时又看不见的,所以我们就叫它native api了(亦曰私房XX)。
<!--[if !supportLineBreakNewLine]-->
<!--[endif]-->

总结


Java平台-虚拟机

       Java的核心技术JVM(Java Virtual Machine)是Java实现平台无关性的基础

       Java虚拟机(JVM)是可运行Java代码的假想计算机。

       只要根据JVM规格说明把解释器移植到特定的计算机上,就能保证经过编译的任何Java代码能够在该系统上运行。


Java平台-虚拟机工作原理


       Java编译程序把Java源程序翻译为JVM可执行代码-字节码

       Java编译器不把变量和方法的引用编译为数值引用,也不确定程序执行过程中的内存布局,而是把这些符号引用

信息存储在字节码中,由解释器在运行过程中建立内存布局,然后再通过查表来确定一个方法所在的地址

       这样保证了Java的可移植性和安全性。

 

       运行JVM字节码的工作由解释器来完成,这包括三部分:

–    代码装入:该工作由类装载器(class loader)完成

–    代码校验:被装入代码经过字节码校验器进行检查,类只检查一次,无需反复校验,效率高

–    代码执行:通过校验,开始执行代码,有下列方式

       解释 执行方式(笔译)

        即时 编译方式(口译)

posted on 2011-05-31 19:22  ranran2010  阅读(508)  评论(0编辑  收藏  举报