代码改变世界

Java 加载、链接、初始化

2017-08-14 00:26  l4y  阅读(1163)  评论(0编辑  收藏  举报

JVM 动态地加载、连接、初始化类或接口(在本文之后的篇幅中,我将使用“类”来表示“类和接口”)。这里我先贴上 Java 虚拟机规范的原文:

Loading is the process of finding the binary representation of a class or interface type with a particular name and creating a class or interface from that binary representation. Linking is the process of taking a class or interface and combining it into the run-time state of the Java Virtual Machine so that it can be exected. Initialization of a class or interface consists of executing the class or interface initialization method clinit.

加载、连接、初始化都是在程序运行过程期间完成,类从被加载到虚拟机内存中开始,到卸载出内存为止,整个生命周期包括:加载(Loading)、验证(Verification)、准备(Preparation)、解析(Resolution)、初始化(Initialization)、使用(Using)、卸载(Unloading) 7 个阶段,其中验证、准备、解析三个阶段统称为连接。

加载、验证、准备、初始化、卸载这 5 个阶段的顺序是确定的,类的加载过程必须按照这种顺序按部就班地开始,而解析阶段则不一定,它在某些情况下可以在初始化阶段之后再开始,这是为了支持 Java 语言的运行时绑定(晚期绑定、动态绑定)。

JVM 规范并没有强制约束加载需要在什么情况下开始,但是 JVM 规范严格规定了有且只有 5 种情况必须立即对类进行”初始化“:

  1. 遇到 new、getstatic、putstatic、invokestatic 这四条字节码指令时,如果类没有进行过初始化,则需要先出发其初始化。发生这 4 条指令最常见的 Java 代码场景是:使用 new 关键字实例化对象的时候、读取或设置一个类的静态字段(被 final 修饰、已在编译期把结果放入常量池的静态字段除外)的时候,以及调用一个类的静态方法的时候。
  2. 使用 java.lang.reflect 包的方法对类进行反射调用的时候,如果类没有进行过初始化,则需要先触发其初始化。
  3. 当初始化一个类的时候,如果发现其父类还没有进行过初始化,则需要先触发对其父类的初始化。
  4. 当虚拟机启动时,用户需要指定一个要执行的主类(包含 main() 方法的那个类),虚拟机会先初始化这个类。
  5. 如果一个调用 java.lang.MethodHandle 实例最后的解析结果 REF_getStatic、REF_putstatic、REF_invokeStatic 的方法句柄,并且这个方法句柄所对应的类没有进行过初始化,则需要先触发其初始化。

为了避免上边第5点没有表达明白而造成的困扰,这里贴上原文:

The first invocation of a java.lang.invoke.MethodHandle instance which was the result of method handle resolution for a method handle of kind 2 (REF_getStatic), 4 (REF_putStatic), 6 (REF_invokeStatic), or 8 (REF_newInvokeSpecial).

上边这 5 中场景中的行为称为对一个类进行主动引用,除此之外,所有引用类的方法都不会出发初始化,称为被动引用

需要注意,一个类在初始化时,要求其父类全部都初始化过,但是一个接口在初始化时,并不要求其父接口全部都完成了初始化,只有在真正使用到父接口的时候(如引用接口中定义的常量)才会初始化。

一、加载

在加载阶段,JVM 需要完成以下 3 件事情:

  1. 通过一个类的全限定名来获取此类的二进制字节流;
  2. 将这个字节流所代表的静态存储结构转化为方法区的运行时数据接口;
  3. 在内存中生成一个代表这个类的 java.lang.Class 对象,作为方法区这个类的各种数据的访问入口。

对于数组类而言,数组类本身不通过类加载器创建,它是由 JVM 直接创建的。但数组类的元素类型(ElementType,数组去掉所有维度的类型)最终是靠类加载器去创建,一个数组类(下面简称 C )创建过程久遵循以下规则:

  • 如果数组的组件类型(ComponentType,数组去掉一个维度的类型)是引用类型,那么递归采取本文中定义的加载过程加载这个组件类型,数组 C 将在加载该组件类型的类加载器的类名称空间上被标识。
  • 如果数组的组件类型不是引用类型(如 int[] 数组),JVM 将会把数组 C 标记为与引导类加载器关联。
  • 数组类的可见性与它的组件的可见性一致,如果组件类型不是引用类型,那数组类的可见性将默认为 public 。

加载阶段完成后,虚拟机外部的二进制字节流就按照虚拟机所需的格式存储在方法区之中,方法区中的数据存储格式由虚拟机自行定义实现,虚拟机规范未规定此区域的具体数据结构。然后在内存中实例化一个 java.lang.Class 类的对象,这个对象将作为程序访问方法区中的这些类型数据的外部接口。

加载阶段与连接阶段的部分内容是交叉进行的。

二、验证

验证的目的是为了确保 Class 文件的字节流中包含的信息符合当前虚拟机的要求,并且不会危害虚拟机自身的安全。如果二进制字节流不符合结构约束,就会抛出 VerifyError ,验证阶段大致上会分为 4 个阶段的检验动作:文件格式验证、元数据验证、字节码验证、符号引用验证。

文件格式验证主要验证字节流是否符合 Class 文件格式的约束,并能被当前版本的虚拟机处理。只有通过了该阶段的验证,字节流才会进入内存的方法区中进行存储,所以后面的 3 个验证阶段全部是基于方法区的存储结构进行的,不会再直接操作字节流。

元数据验证对字节码描述的信息进行语义分析,以保证其描述的信息符合 Java 语言规范的要求,如:

  • 这个类是否有父类;
  • 这个类是否继承了不能被继承的类(final);
  • 非抽象类是否实现了父类或接口中要求实现的所有方法。

字节码验证的主要目的是通过数据流和控制流分析,确定程序语义是合法的、符合逻辑的。在第二阶段对元数据信息中的数据类型做完校验后,这个阶段将对类的方法提进行校验解析,确保被校验类的方法在运行时不会做出危害虚拟机安全的事件,

符号引用验证发生在虚拟机将符号引用转化为直接引用的时候,这个动作将在链接的第三阶段(解析)发生。符号引用验证可以看作是对类自身以外(常量池中的各种符号引用)的信息进行匹配性校验,如:

  • 符号引用中通过字符串描述的全限定名能否找到对应的类。
  • 在指定类中是否存在符合方法的字段描述符以及简单名称所描述的方法和字段。

符号引用验证的目的是确保解析动作能正常执行,如果无法通过符号引用验证,那么将抛出一个 IncompatibleClassChangeError 异常的字类。

三、准备

准备阶段是正式为类变量分配内存并设置类变量初始值的阶段,这些变量所使用的内存都将在方法区中进行分配。这里需要强调一下,首先,这时候进行内存分配的仅包括类变量,二不包括实例变量,实例变量将会在对象实例化时随着对象一起分配的 Java 堆中。

public static int value = 123;
public static final int fValue = 123;

上边 value 的值在准备阶段过去的初始值是 0 ,fValue 的值是 123 。

四、解析

在解析阶段,虚拟机会把常量池内的符号引用替换为直接引用。解析动作主动针对类或接口、字段、类方法、接口方法、方法类型、方法句柄和调用点限定符。

  • 符号引用(Symbolic Reference):符号引用以一组符号来描述所引用的目标,符号可以是任何形式的字面量,只要使用时能无歧义地定位到目标即可。符号引用与虚拟机实现的内存布局无关,引用的目标并不一定已经加载到内存中。
  • 直接引用(Direct References):直接引用剋时直接指向目标的指针、相对偏移量或是一个能间接定位到目标的句柄。直接引用是和虚拟机实现的内存布局相关的,同一个符号引用在不同虚拟机实例上翻译出来的直接引用一般不会相同。如果有了直接引用,那引用目标必定已经在内存中存在。

五、初始化

类初始化是类加载过程的最后一步,前面的类加载过程中,出了在加载阶段用户应用程序可以通过自定义类加载器参与之外,其余动作完全由虚拟机主导和控制。到了初始化阶段,才真正开始执行类中定义的 Java 程序代码。

初始化阶段就是执行 <clinit>() 方法的过程。先来了解一下该方法执行过程中一些可能会影响程序运行行为的特点和细节。

  • <clinit>() 方法是由编译器自动收集类中的所有类变量的赋值动作和静态语句块中的语句合并产生的,编译器收集的顺序是由语句在原文件中出现的顺序决定的。静态语句块只能访问到定义在静态语句块之前的变量,定义在它之后的变量,在前面的静态语句块可以赋值,但是不能访问。
  • <clinit>() 方法与类的构造方法(<init>())不同,它不需要显式调用父类构造器,虚拟机会保证在子类的 <clinit>() 方法执行之前,父类的 <clinit>() 方法已经执行完毕。
  • <clinit>() 方法对于类或接口不是必须的,如果一个类中没有静态语句块,也没有对变量的复制操作,那么编译器可以不为这个类生成 <clinit>() 方法。
  • 执行接口的 <clinit>() 方法不需要先执行父接口的 <clinit>() 方法。只有当父接口中定义的变量使用时,父接口才会初始化。另外,接口的实现类在初始化时也一样不会执行接口的 <clinit>() 方法。
  • 虚拟机会保证一个类的 <clinit>() 方法在多线程环境中被正确的加锁、同步,如果多个线程同时去初始化一个类,那么只会有一个线程去执行这个类的 <clinit>() 方法,其他线程都需要阻塞等待,知道活动线程执行完毕 <clinit>() 方法。

参考: