【JVM】Class文件加载过程
1 前言
JVM的入口数据就是每一个Class文件,我们上一篇,仔细分析了Class文件中的每个字节所代表的含义,那么它是如何加载进JVM的,这一篇我们来讲解。
Class文件的解释运行时数据本质是C++对象,也叫做KClass对象,这些运行时数据在JDK7及之前放在永久代(PermGen),JDK8之后放在元空间(Metaspace)。
约定:不管是放永久代还是元空间都是对方法区的一种实现,所以我们这篇文章统一都称方法区。
2 什么是类的加载和卸载
类的加载:JVM虚拟机将指定的class文件读取到内存里,并解释运行该class文件里的Java程序的过程。
类的卸载:将某个class文件的运行时数据从JVM虚拟机中移除的过程。
3 类的生命周期
一个类的完整生命周期如下:
Class 类型的文件到真正可以使用主要有三步:加载->连接->初始化。连接过程又可分为三步:验证->准备->解析。
3.1 加载
这里Java的3个类加载器就会起作用了(双亲委派机制):
Bootstrap ClassLoader(启动类加载器) :主要负责加载Java核心类库,%JRE_HOME%\lib下的rt.jar、resources.jar、charsets.jar和class等。
Extention ClassLoader(扩展类加载器):主要负责加载目录%JRE_HOME%\lib\ext目录下的jar包和class文件。
Application ClassLoader(应用程序类加载器) :主要负责加载当前应用的classpath下的所有类,我们的代码基本都是这个加载器加载的
User ClassLoader(用户自定义类加载器) : 用户自定义的类加载器,可加载指定路径的class文件
对于加载过程的第一步,主要完成下面 3 件事情:
1、通过全类名获取定义此类的二进制字节流
2、将字节流所代表的静态存储结构转换为方法区的运行时数据结构
3、在内存中生成一个代表该类的 Class 对象,作为方法区这些数据的访问入口
虚拟机规范上面这 3 点并不具体,因此是非常灵活的。
比如:"通过全类名获取定义此类的二进制字节流" 并没有指明具体从哪里获取、怎样获取。比如:比较常见的就是从 ZIP
包中读取(日后出现的 JAR
、EAR
、WAR
格式的基础)、其他文件生成(典型应用就是 JSP
)等等。
一个非数组类的加载阶段(加载阶段获取类的二进制字节流的动作)是可控性最强的阶段,这一步我们可以去完成还可以自定义类加载器去控制字节流的获取方式(重写一个类加载器的 loadClass()
方法)。
数组类型不通过类加载器创建,它由 Java 虚拟机直接创建,但是数组的元素类型仍然需要依靠类加载器去创建。
类加载器、双亲委派模型也是非常重要的知识点,这部分内容会在后面的文章中单独介绍到。
加载阶段和连接阶段的部分内容是交叉进行的,加载阶段尚未结束,连接阶段可能就已经开始了。
3.2 连接
3.2.1 连接-验证
验证是连接阶段的第一步,目的是保证加载的字节码是合法的。
验证阶段包含 4 个动作:文件格式验证、元数据验证、字节码验证和符号引用验证。
说一下字节码验证,验证程序语义是合法的、符合逻辑的,其实就是对类的方法体(Class 文件中的 Code 属性)进行校验分析。
说一下符号引用验证,验证类中引用的资源(外部类、方法、变量)是否存在,访问权限是否合法。,否则,JVM 会抛出 java.lang.IncompatibleClassChangeError 的子类异常,例如:
java.lang.IllegalAccessError、java.lang.NoSuchFieldError等。
3.2.2 连接-准备
准备阶段是正式为类变量分配内存并设置类变量初始值的阶段,这些内存都将在方法区中分配。对于该阶段有以下几点需要注意:
1、进行内存分配的类变量仅包括( Class Variables ,即静态变量,被 static 关键字修饰的变量,只与类相关,因此被称为类变量),而不包括实例变量。实例变量会在对象实例化时随着对象一块分配在 Java 堆中。
2、类变量所使用的内存都应当在 方法区 中进行分配。不过有一点需要注意的是:JDK 7 之前,HotSpot 使用永久代来实现方法区的时候。 而在 JDK 7 及之后,HotSpot 已经把原本放在永久代的字符串常量池、静态变量等移动到堆中,这个时候类变量则会随着 Class 对象一起存放在 Java 堆中。
3、这里所设置的初始值"通常情况"下是数据类型默认的零值,比如我们定义了public static int value=111 ,那么 value 变量在准备阶段的初始值就是 0 而不是 111(初始化阶段才会赋值)。特殊情况:比如给 value 变量加上了 final 关键字public static final int value=111 ,那么准备阶段 value 的值就被赋值为 111。
JVM 中 boolean 类型映射为 int 类型,false 用 0 表示,true 用 1 表示,由于 int 默认值为 0,因此 boolean 的默认值为 false。
3.2.3 连接-解析
解析阶段是虚拟机将常量池内的符号引用替换为直接引用的过程。
解析动作主要针对类或接口、字段、类方法、接口方法、方法类型、方法句柄和调用限定符 7 类符号引用进行。
符号引用就是一组符号来描述目标,可以是任何字面量。直接引用就是直接指向目标的指针、相对偏移量或一个间接定位到目标的句柄。
简单的来说就是Class文件中相对索引的位置要把它转换为实际的内存引用地址。
3.3 初始化
初始化阶段是执行初始化方法 <clinit> ()
方法的过程,是类加载的最后一步,这一步 JVM 才开始真正执行类中定义的 Java 程序代码(字节码)。
说明: <clinit> ()
方法是编译之后自动生成的。
初始化的5个时机:
- 当遇到
new
、getstatic
、putstatic
或invokestatic
这 4 条直接码指令时,比如new
一个类,读取一个静态字段(未被 final 修饰)、或调用一个类的静态方法时。- 当 jvm 执行
new
指令时会初始化类。即当程序创建一个类的实例对象。 - 当 jvm 执行
getstatic
指令时会初始化类。即程序访问类的静态变量(不是静态常量,常量会被加载到运行时常量池)。 - 当 jvm 执行
putstatic
指令时会初始化类。即程序给类的静态变量赋值。 - 当 jvm 执行
invokestatic
指令时会初始化类。即程序调用类的静态方法。
- 当 jvm 执行
- 使用
java.lang.reflect
包的方法对类进行反射调用时如Class.forname("...")
,newInstance()
等等。如果类没初始化,需要触发其初始化。 - 初始化一个类,如果其父类还未初始化,则先触发该父类的初始化。
- 当虚拟机启动时,用户需要定义一个要执行的主类 (包含
main
方法的那个类),虚拟机会先初始化这个类。 在JDK1.7以后,动态语言支持的时候,如果一个java.lang.invoke.MethodHandle实例最后的结果是要执行第1种情况的操作,则也要进行初始化。MethodHandle
和VarHandle
可以看作是轻量级的反射调用机制,而要想使用这 2 个调用, 就必须先使用findStaticVarHandle
来初始化要调用的类。
3.4 使用
初始化后,就是我们程序中使用的地方。
3.5 卸载
卸载类即该类的 Class 对象被 GC。
卸载类需要满足 3 个要求:
- 该类的所有的实例对象都已被 GC,也就是说堆不存在该类的实例对象。
- 该类对应的java.lang.Class对象没有在任何地方被引用,无法在任何地方通过反射访问该类的方法。
- 该类的类加载器的实例已被 GC
当然类的卸载也跟采用的垃圾收集算法有关,在CMS中有两种方法卸载不必要的类,一种是等到元空间(Metaspace)满了的时候触发FGC,另一种是使用跟CMS并发收集算法类似的方式,不过对于元空间的阈值和触发CMS并发收集的阈值是独立的。后续谈到垃圾收集算法的时候再仔细解释。