【十二】不要问我JVM !—— 字节码
一、Java的前端编译器
前端编译器的主要任务就是负责将符合Java语法规范的Java代码(. java)
转换为符合JVM规范的字节码文件(.class)
。
javac
是一种能够将Java源码编译为字节码的前端编译器。
javac
编译器在将Java源码编译为一个有效的字节码文件过程中经历了4个步骤分别是:
- 词法解析
- 语法解析
- 语义解析
- 生成字节码
二、字节码
2.1 字节码文件里是什么?
源代码经过编译器编译之后便会生成一个字节码文件
,字节码是一种二进制的类文件,它的内容是JVM的指令,而不像C、C++经由编译器直接生成机器码。
2.2 什么是字节码指令(byte code)?
JAVA虚拟机的指令由一个字节长度的、代表着某种特定操作含义的操作码(opcode)
以及跟随其后的零至多个代表此操作所需参数的操作数(operand)
所构成。
当然虚拟机中许多指令并不包含操作数,只有一个操作码,比如:
2.3 字节码如何查看?
方式一:采用notepad++,安装HEX-Edirot插件或者Binary Viewer插件
方式二:IDEA插件: jclasslib 或jclasslib bytecode viewer客户端工具
方式三:使用Javap指令:jdk自带反解析工具
查看的是字节码的反编译结果:
三、虚拟机的基石:CLass文件
3.1 Class 类的本质
任何一个Class
文件都对应着唯一一个类或接口的定义信息,但反过来说,Class
文件实际上它并不一定以磁盘文件的形式存在(可网络传)。Class
本质是一组以8位字节为基础单位的二进制流。
3.2 Class 文件格式
Class
的结构不像 XML
等描述语言,由于它没有任何分隔符号。
所以在其中的数据项,无论是字节顺序还是数量,都是被严格限定的,哪个字节代表什么含义,长度是多少,先后顺序如何,都不允许改变。
文件格式采用一种类似于c语言结构体的方式进行数据存储,这种结构中只有: 无符号数
和表
- 无符号数属于基本的数据类型,以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。
- 表是由多个无符号数或者其他表作为数据项构成的复合数据类型,所有表都习惯性地以“_info”结尾。表用于描述有层次关系的复合结构的数据,整个Class 文件本质上就是一张表。由于表没有固定长度,所以通常会在其前面加上个数说明
3.3 Class 文件结构
- 魔数
- class文件版本号
- class文件版本常量池
- 访问标志
- 类索引,父类索引,接口索引集合
- 字段表集合
- 方法表集合
- 属性表集合
Class
文件的结构并不是一成不变的,随着Java虚拟机的不断发展,总是不可避免地会对Class
文件结构做出一些调整,但是其基本结构和框架是非常稳定的。
3.3.1 魔数
- 每个
Class
文件开头的4个字节的无符号整数称为魔数(Magic Number
) - 它的唯一作用是确定这个文件是否为一个能被虚拟机接受的有效合法的
Class
文件。即:魔数是Class
文件的标识符。 - 魔数值固定为
0XCAFEBABE
, 不会改变。 - 如果一个
Class
文件不以0xCAFEBABE
开头,虚拟机在进行文件校验的时候就会直接抛出错误 - 使用魔数而不是扩展名来进行识别主要是基于安全方面的考虑,因为文件扩展名可以随意地改动。
3.3.2 class文件版本号
- 紧接着魔数的4个字节存储的是
Class
文件的版本号。同样也是4个字节。第5个和第6个字节所代表的含义就是编译的副版本号minor_version
,而第7个和第8个字节就是编译的主版本号major_version
。 - 它们共同构成了class文件的格式版本号。譬如某个 Class 文件的主版本号为M,副版本号为 m,那么这个Class 文件的格式版本号就确定为M.m。
- 版本号和Java编译器的对应关系
- Java的版本号是从45开始的,JDK1.1之后的每个JDK大版本发布主版本号向上加1.
- 不同版本的Java编译器编译的Class文件对应的版本是不一样的。目前,高版本的Java虛拟机可以执行由低版本编译器生成的Class文件,但是低版本的Java虚拟机不能执行由高版本编译器生成的Class文件(即反之不行)。否则JVM会抛出
java.lang.UnsupportedClassVersionError
异常。( 向下兼容) - 在实际应用中,由于开发环境和生产环境的不同,可能会导致该问题的发生。因此,需要我们在开发时,特别注意开发编译的JDK版本和生产环境中的JDK版本是否一致。
虚拟机JDK版本为1.k (k >= 2)时,对应的class文件格式版本号的范围为45.0 --44+k.0 (含两端) 。
3.3.2 常量池
常量池是Class文件中内容最为丰富的区域之一。常量池对于Class文件中的字段和方法解析也有着至关重要的作用。常量池是整个class文件的基石。
- 在版本号之后,紧跟着的是常量池的数量,以及若干个常量池表项。
- 常量池中常量的数量是不固定的,所以在常量池的入口需要放置一 项u2类型的无符号数,代表常量池容量计数值(constant_ pool count) 。与Java中语言习惯不一样的是, 这个容量计数是从1而不是0开始的。
- Class文件使用了一个前置的容量计数器( constant pool_ count) 加若干个连续的数据项(constant_ pool) 的形式来描述常量池内容。我们把这一系列连续常量池数据称为常量池集合。常量池表项中,用于存放编译时期生成的各种字面量和符号引用,这部分内容将在类加载后进入方法区的运行时常量池中存放。
常量池计数器
由于常量池的数量不固定,时长时短,所以需要放置两个字节来表示常量池容量计数值。常量池容量计数值(u2类型) :从1开始,表示常量池中有多少项常量。即constant_ pool_ count=1表示常量池中有0个常量项通常我们写代码时都是从0开始的,但是这里的常量池却是从1开始,因为它把第0项常量空出来了。这是为了满足后面某些指向常量池的索引值的数据在特定情况下需要表达“不引用任何一个常量池项目”的含义,这种情况可用索引值0来表示。
常量池
常量池主要存放两大类常量:字面量(Literal)
和符号引用(Symbolic References)
- 全限定名com/test/Demo这个就是类的全限定名,仅仅是把包名的".“替换成”/",为了使连续的多个全限定名之间不产生混淆,在使用时最后一般会加入一个“;”表示全限定名结束。
- 简单名称是指没有类型和参数修饰的方法或者字段名称,如:类的add()方法和num字段的简单名称分别是add和num。
- 描述符的作用是用来描述字段的数据类型、方法的参数列表〈包括数量、类型以及顺序)和返回值。根据描述符规则,基本数据类型(byte、char、double、 float、int、long、short、boolean)以及代表无返回值的void类型都用一个大写字符来表示,而对象类型则用字符L加对象的全限定名来表示,详见下表:
补充说明:
虚拟机在加载Class文件时才会进行动态链接,也就是说,Class 文件中不会保存各个方法和字段的最终内存布局信息,因此,这些字段和方法的符号引用不经过转换是无法直接被虚拟机使用的。当虚拟机运行时,需要从常量池中获得对应的符号引用,再在类加载过程中的解析阶段将其替换为直接引用,并翻译到具体的内存地址中。
这里说明下符号引用和直接引用的区别与关联:
- 符号引用: 符号引用以组符号来描述所引用的目标, 符号可以是任何形式的字面量, 只要使用时能无歧义地定位到目标即可。符号引用与虚拟机实现的内存布局无关,引用的目标并不一定已经加载到了内存中。
- 直接引用:直接引用可以是直接指向目标的指针、相对偏移量或是一个能问接定位到目标的句柄。 直接引用是与虚拟机实现的内存布局相关的,同一个符号引用在不同虚拟机实例上翻译出来的直接引用一般不会相同。如果有了直接引用,那说明引用的目标必定已经存在于内存之中了。
常量池包含了class文件结构及其子结构中引用的所有字符串常量、类或接口名、字段名和其他常量。常量池中的每一项都有一个特征 —— 第1个字节作为类型标记,用于确定该项的格式,这个字节称为tag byte(标记字节、标签字节)。
总结:
- 这14种表(或者常量项结构)的共同点是:表开始的第一位是一个u1类型的标志位(tag) ,代表当前这个常量项使用的是哪种表结构,即哪种常量类型。
- 在常量池列表中,
CONSTANT_ Utf8_ info
常量项是一种使用改进过的UTF -8编码格式来存储诸如文字字符串、类或者接口的全限定名、字段或者方法的简单名称以及描述符等常量字符串信息。 - 这14种常量项结构还有一个特点是:其中13个常量项占用的字节固定,只有
CONSTANT_ Utf8 info
占用字节不固定,其大小由length决定。为什么呢?因为从常量池存放的内容可知,其存放的是字面量和符号引用,最终这些内容都会是一个字符串,这些字符串的大小是在编写程序时才确定,比如你定义一个类,类名可以取长取短,所以在没编译前,大小不固定,编译后,通过utf- 8编码,就可以知道其长度 - 常量池:可以理解为Class文件之中的资源仓库,它是Class文件结构中与其他项目关联最多的数据类型(后面的很多数据类型都会指向此处),也是占用Class文件空间最大的数据项目之一。
- 常量池中为什么要包含这些内容? Java代码在进行Javac编译的时候,并不像C和C++那样有“连接”这一步骤,而是在虚拟机加载Class文件的时候进行动态链接。也就是说,在Class文件中不会保存各个方法、字段的最终内存布局信息,因此这些字段、方法的符号引用不经过运行期转换的话无法得到真正的内存入口地址,也就无法直接被虚拟机使用。当虚拟机运行时,需要从常量池获得对应的符号引用,再在类创建时或运行时解析、翻译到具体的内存地址之中。关于类的创建和动态链接的内容,在虚拟机类加载过程时再进行详细讲解
3.3.3 访问标识(access_flag、访问标志、访问标记) —— 针对的是类
在常量池后,紧跟着访问标记。该标记使用两个字节表示,用于识别一些类或者接口
层次的访问信息,包括:这个Class
是类还是接口;是否定义为 public
类型,是否定义为 abstract
类型;如果是类的话,是否被声明为final
等。各种访问标记如下所示:
- 类的访问权限通常为
ACC_
开头的常量。 - 每一种类型的表示都是通过设置访问标记的32位中的特定位来实现的。比如若是public final的类, 则该标记为
ACC_ PUBLIC| ACC_ F INAL
。 - 使用
ACC_SUPER
可以让类更准确地定位到父类的方法super .method()
,现代编译器都会设置并且使用这个标记。
补充说明:
-
带有
ACC_ INTERFACE
标志的Class文件表示的是接口而不是类,反之则表示的是类而不是接口。
① 如果一个Class文件被设置了ACC_ INTERFACE
标志,那么同时也得设置ACC_ABSTRACT
标志。同时它不能再设置ACC_ FINAL
、ACC_ SUPER
或ACC_ ENUM
标志。
② 如果没有设置ACC_ INTERFACE
标志, 那么这个Class文件可以具有上表中除ACC ANNOTATION
外的其他所有标志。当然ACC FINAL
和ACC_ ABSTRACT
这类互斥的标志除外。这两个标志不得同时设置。 -
ACC_ SUPER
标志用于确定类或接口里面的invokespecial
指令使用的是哪一种执行语义。针对Java虚拟机指令集的编译器都应当设置这个标志。对于Java SE 8及后续版本来说,无论class文件中这个标志的实际值是什么,也不管Class文件的版本号是多少,Java虚拟机都认为每个Class文件均设置了ACC_SUPER
标志。
ACC_ SUPER
标志是为了向后兼容由旧Java编译器所编译的代码而设计的。目前的ACC_SUPER
标志在由JDK 1.0.2之 前的编译器所生成的access_ flags中是没有确定含义的,如果设置了该标志,那么Oracle的Java虚拟机实现会将其忽略。 -
ACC SYNTHETIC
标志意味着该类或接口是由编译器生成的,而不是由源代码生成的。 -
注解类型必须设置
ACC _ANNOTATION
标志。如果设置了ACC ANNOTATION标志,那么也必须设置ACC_INTERFACE
标志。 -
ACC_ENUM
标志表明该类或其父类为枚举类型。
3.3.4 类索引、父类索引、接口索引集合
这三项数据来确定这个类的继承关系。
- 类索引用于确定这个类的全限定名
- 父类索引用于确定这个类的父类的全限定名。由于Java语言不允许多重继承,所以父类索引只有一个,除了java.lang.object之外,所有的Java类都有父类,因此除了java. lang .0bject外,所有Java类的父类索引都不为0
- 接口索引集合就用来描述这个类实现了哪些接口,这些被实现的接口将按implements 语句(如果这个类本身是一个接口,则应当是extends 语句)后的接口顺序从左到右排列在接口索引集合中。
1.this_ class (类索引)
2字节无符号整数,指向常量池的索引。它提供了类的全限定名,如com/java1/Demo. this_ class的值必须是对常量池表中某项的一个有效索引值。 常量池 在这个索引处的成员必须为CONSTANT. _Class _info类型结构体, 该结构体表示这个class文件所定义的类或接口。
2.super_ class (父类索引)
2字节无符号整数,指向常量池的索引。它提供了当前类的父类的全限定名。如果我们没有继承任何类,其默认继承的是java/lang/object类.同时,由于Java不支持多继承, 所以其父类只有一个。superclass指向的父类不能是final.
3.interfaces (接口索引)
指向常量池索引集合, 它提供了一个符号引用到所有己实现的接口。由于一个类可以实现多个接口,因此需要以数组形式保存多个接口的索引,表示接口的每个索引也是一个指向常量池的CONSTANT_ Class
( 当然这里就必须是接口,而不是类)。
interfaces_ count
(接口计数器),interfaces_ count
项的值表示当前类或接口的直接超接口数量interfaces [ ]
接口索引集合,interfaces [ ]
中每个成员的值必须是对常量池表中某项的有效索引值,它的长度为interfaces_ count
。 每 个成员interfaces[i]
必须为CONSTANT_ Class_ info
结构, 其中0 <= i < interfaces count
。 在interfaces[ ]
中, 各成员所表示的接口顺序和对应的源代码中给定的接口顺序(从左至右)一样,即interfaces[0]
对 应的是源代码中最左边的接口。
3.3.5 字段表的集合
- 用于描述接口或举中声明的变量。字段(field) 包括类级变量以及实例级变量,但是不包括方法内部、代码块内部声明的局部变量。
- 字段叫什么名字、字段被定义为什么数据类型,这些都是无法固定的,只能引用常量池中的常量来描述。
- 它指向常量池索引集合,它描述了每个字段的完整信息。比如字段的标识符、访问修饰符(public、 private或protected)、是类变量还是实例变量(static修饰符)、是否是常量(final修饰符)等。
注意事项:
● 字段表集合中不会列出从父类或者实现的接口中继承而来的字段,但有可能列出原本Java代码之中不存在的字段。譬如在内部类中为了保持对外部类的访问性,会自动添加指向外部类实例的字段。
● 在Java语言中字段是无法重载的,两个字段的数据类型、修饰符不管是否相同,都必须使用不一 样的名称,但是对于字节码来讲,如果两个字段的描述符不一致,那字段重名就是合法的。
1.fields_count(字段计数器)
fields_count的值表示当前class文件fields表的成员个数。使用两个字节来表示。
fields表中每个成员都是一个field_info结构,用于表示该类或接口所声明的所有类字段或者实例字段,不包括方法内部声明的变量,也不包括从父类或父接口继承的那些字段。
2 fields [] (字段表)
●fields表中的每个成员都必须是一个fields_ info结构的数据项,用于表示当前类或接口中某个字段的完整描述。
●一个字段的信息包括如下这些信息。这些信息中,各个修饰符都是布尔值,要么有,要么没有。
- 作用域(public、 private、 protected修饰符)
- 是实例变量还是类变量(static修饰符)
- 可变性(final)
- 并发可见性(volatile修饰符, 是否强制从主内存读写)
- 可否序列化( transient修饰符
- 字段数据类型(基本数据类型、对象、数组)
- 字段名称
字段表也有自己的结构:
2.1字段表访问标识
一个字段可以被各种关键字去修饰,比如:作用域修饰符(public、private、protected). static修饰符、final修饰符、volatile修饰符等等。因此,其可像类的访问标志那样,使用一些标志来标记字段。字段的访问标志有
2.2字段名索引
根据字段名索引的值,查询常量池中的指定索引项即可。
2.3 描述符索引
描述符的作用是用来描述字段的数据类型、方法的参数列表(包括数量、类型以及顺序)和返回值。根据描述符规则,基本数据类型(byte, char , double,float ,int , long, short ,boolean)及代表无返回值的void类型都用一个大写字符来表示,而对象则用字符L加对象的全限定名来表示
2.4属性表集合
一个字段还可能拥有一些属性,用于存储更多的额外信息。比如初始化值、一些注释信息等。属性个数存放在attribute_ count中,属性具体内容存放在attributes数组中。
以常量属性为例。结构为:
ConstantValue attribute{
u2 attribute_ name_ index;
u4 attribute length;|
u2 constantvalue_ index;
}
说明:对于常量属性而言,attribute_ length值恒为2。
3.3.6 方法表的集合
指向常量池索引集合,它完整描述了每个方法的签名。
●在字节码文件中,每一个method_
info项都对应着一个类或者接口中的方法信息。比如方法的访问修饰符(public、private或protected),方法的返回值类型以及方法的参数信息等。●如果这个方法不是抽象的或者不是native的, 那么字节码中会体现出来。
●一方面,methods表只描述当前类或接口中声明的方法,不包括从父类或父接口继承的方法。另一方面,methods表有可能会出现由编译器自动添加的方法,最典型的便是编译器产生的方法信息(比如:类(接口
)初始化方法()和实例初始化方法().
使用注意事项:
在Java语言中,要重载(Overload)一个方法,除了要与原方法具有相同的简单名称之外,还要求必须拥有一个与原方法不同的特征签名,特征签名就是一个方法中各个参数在常量池中的字段符号引用的集合,也就是因为返回值不会包含在特征签名之中,因此Java语言里无法仅仅依靠返回值的不同来对一个已有方法进行重载。但在Class文件格式中,特征签名的范围更大一些,只要描述符不是完全一致的两个 方法就可以共存。也就是说,如果两个方法有相同的名称和特征签名,但返回值不同,那么也是可以合法共存于同一个class文件中。
也就是说,尽管Java语法规范并不允许在一个类或 者接口中声明多个方法签名相同的方法,但是和Java语法规范相反, 字节码文件中却恰怡允许存放多个方法签名相同的方法,唯一的条件就是这些方法之间的返回值不能相同。
1.methods_count(方法计数器)
methods_count的值表示当前class文件methods表的成员个数。使用两个字节来表示。methods表中每个成员都是一个method_info结构。
2.methods [(方法表)
●methods表中的每个成员都必须是一个method_info结构,用于表示当前类或接口中某个方法的完整描述。如果某个method_info结构的access_flags项既没有设置ACC_NATIVE 标志也没有设置ACC_ABSTRACT标志,那么该结构中也应包含实现这个方法所用的Java虚拟机指令。
●method_info结构可以表示类和接口中定义的所有方法,包括实例方法、类方法、实例初始化方法和类或接口初始化方法·方法表的结构实际跟字段表是一样的,方法表结构如下:
2.1方法表访问标志
方法表也有访问标志,而且他们的标志有部分相同,部分则不同
3.3.7 属性表集合
方法表集合之后的属性表集合,指的是class文件所携带的辅助信息,比如该class文件的源文件的名称。以及任何带有RetentionPolicy.CLASS
或者RetentionPolicy . RUNTIME
的注解。这类信息通常被用于Java虚拟机的验证和运行,以及Java程序的调试,般无须深入了解。
此外,字段表、方法表都可以有自己的属性表。用于描述某些场景专有的信息。
属性表集合的限制没有那么严格,不再要求各个属性表具有严格的顺序,并且只要不与已有的属性名重复,任何人实现的编译器都可以向属性表中写入自己定义的属性信息,但Java虚拟机运行时会忽略掉它不认识的属性。
属性表attributes [ ]
属性表的每个项的值必须是attribute_info结构。属性表的结构比较灵活。
1.属性的通用格式
2.属性类型
属性表实际上可以有很多类型,上面看到的Code属性只是其中一种,Java8里面定义了23种属性。
其中:code属性
四、字节码指令集与解析举例
Java 字节码对于虚拟机,就好像汇编语言对于计算机,属于基本执行命令。
Java 虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字(称为操作码,Opcode)以及跟随其后的零至多个代表此操作所需参数(称为操作数,Operands)而构成,由于 Java 虚拟机采用面向操作数栈而不是寄存器的结构,所以大多数的指令都不包含操作数,只有一个操作码。
由于限制了 Java 虚拟机操作码的长度为一个字节(即0~255),这意味着指令集的操作码总数不可能超过256条。
4.1 执行模型
如果不考虑异常处理的话,那么 Java 虚拟机的解释器可以使用下面这个伪代码当做最基本的执行模型来理解:
do {
自动计算PC寄存器的值加1;
根据PC寄存器的指示位置,从字节码流中取出操作码;
if(字节码存在操作数) 从字节码流中取出操作数;
执行操作码所定义的操作;
}while(字节码长度>0)
4.2 字节码与数据类型
i 代表对 int 类型的数据操作
l 代表 long
s 代表 short
b 代表 byte
c 代表 char
f 代表 float
d 代表 double
大部分与数据类型相关的字节码指令,它们的操作码助记符中都有特殊的字符来表明专门为哪种数据类型服务,也有一些指令的助记符中没有明确地指明操作类型的字母,如 arraylength 指令,它没有代表数据类型的特殊字符,但操作数永远只能是一个数组类型的对象。
还有另一些指令,如无条件跳转指令 goto 则是与数据类型无关的
大部分的指令都没有支持整数类型 byte、char 和 short,甚至没有任何指令支持 boolean 类型。编译器会在编译器或运行期将 byte 和short 类型的数据带符号扩展(Sign-Extend)为相应的 int 类型数据,将 boolean 和 char 类型数据零位扩展(Zero-Extend)为相应的 int 类型数据。与之类似,在处理 boolean、byte、short 和 char 类型的数组时,也会转换为使用对应的 init 类型的字节码指令来处理。因此,大多数对于 boolean、byte、short 和 char 类型数据的操作,实际上都是使用相应的 int 类型作为运算类型。
4.3 指令分类
- 加载与存储指令
- 算术指令
- 类型转换指令
- 对象的创建与访问指令
- 方法调用与返回指令
- 操作数栈管理指令
- 比较控制指令
- 异常处理指令
- 同步控制指令
在做值相关操作时:
- 一个指令,可以从局部变量表、常量池、堆中对象、方法调用、系统调用等中取得数据,这些数据(可能是值,可能是对象的引用)被压入操作数栈
- 一个指令,也可以从操作数栈中取出一到多个值(pop 多次),完成赋值、加减乘除、方法传参、系统调用等操作
4.3.1 加载与存储指令
加载和存储指令用于将数据从栈帧的局部变量表
和操作数栈
之间来回传递。
常用指令:
- 「局部变量压栈指令」将一个局部变量加载到操作数栈:xload、xload_(其中 x 为 i、l、f、d、a,n 为 0 到 3);xaload、xaload(其 x 为 i、l、f、d、a、b、c、s,n 为 0 到 3)
- 「常量入栈指令」将一个常量加载到操作数栈:bipush、sipush、ldc、ldc_w、ldc2_w、aconst_null、iconst_m1、iconst_、iconst_、fconst_、dconst_
- 「出栈装入局部变量表指令」将一个数值从操作数栈存储到局部变量表:xstore、xstore_(其中 x 为 i、l、f、d、a,n 为 0 到 3); xastore(其中 x 为 i、l、f、d、a、b、c、s)
- 「扩充局部变量表的访问索引的指令」:wide
上面所列举的指令助记符中,有一部分是以尖括号结尾的(例如iload_)。这些指令助记符实际上代表了一组指令(例如iload_代表了iload_0、iload_1、iload_2和iload_3这几个指令)。这几组指令都是某个带有一个操作数的通用指令(例如 iload)的特殊形式,对于这若干组特殊指令来说,它们表面上没有操作数,不需要进行取操作数的动作,但操作数都隐含在指令中
除此之外,它们的语义与原生的通用指令完全一致(例如 iload_0的语义与操作数为0时的iload指令语义完全一致)。在尖括号之间的字母指定了指令隐含操作数的数据类型,代表非负的整数,代表是 int 类型数据,代表 long 类型,代表 float 类型,代表 double 类型
操作 byte、char、short 和 boolean 类型数据时,经常用 int 类型的指令来表示。
4.3.2 算术指令
算术指令用于对两个操作数栈上的值进行某种特定运算,并把结果重新压入操作数栈。
大体上算术指令可以分为两种:对整型数据
进行运算的指令与对浮点型类型
数据进行运算的指令
所有算术指令包括:
加法指令:iadd、ladd、fadd、dadd
减法指令:isub、lsub、fsub、dsub
乘法指令:imul、lmul、fmul、dmul
除法指令:idiv、ldiv、fdiv、ddiv
求余指令:irem、lrem、frem、drem(remainder:余数)
取反指令:ineg、lneg、fneg、dneg(negation:取反)
自增指令:iinc
位运算指令,又可分为:
位移指令:ishl、ishr、iushr、lshl、lshr、lushr
按位或指令:ior、lor
按位与指令:iand、land
按位异或指令:ixor、lxor
比较指令:dcmpg、dcmlp、fcmpg、fcmpl、lcmp
public static int bar(int i) {
return ((i + 1) - 2) * 3 / 4;
}
比较指令的说明:
比较指令的作用是比较栈顶两个元素的大小,并将比较结果入栈
比较指令有:dcmpg、dcmpl、fcmpg、fcmpl、lcmp
与前面讲解的指令类似,首字符 d 表示 double 类型,f 表示 float,l 表示 long
对于 double 和 float 类型的数字,由于 NaN 的存在,各有两个版本的比较指令,以 float 为例,有 fcmpg 和 fcmpl 两个指令,它们的区别在于在数字比较时,若遇到 NaN 值,处理结果不同
指令 dcmpl 和 dcmpg 也是类似的,根据其命名可以推测其含义,在此不再赘述
指令 lcmp 针对 long 型整数,由于 long 型整数没有 NaN 值,故无需准备两套指令
举例:
指令 fcmpg 和 fcmpl 都从栈中弹出两个操作数,并将它们做比较,设栈顶的元素为 v2, 栈顶顺位第2位元素为 v1,若 v1 = v2,则压入0;若 v1 > v2 则压入1;若 v1 < v2 则压入-1
两个指令的不同之处在于,如果遇到 NaN 值,fcmpg 会压入1,而 fcmpl 会压入-1
数值类型的数据才可以谈大小,boolean、引用数据类型不能比较大小
4.3.3 类型转换指令
类型转换指令说明:
类型转换指令可以将两种不同的数值类型进行相互转换
这些转换操作一般用于实现用户代码中的显式类型转换操作,或者用来处理字节码指令集中数据类型相关指令无法与数据类型一一对应的问题
宽化类型转换(Widening Numeric Conversions)
转换规则:
Java 虚拟机直接支持以下数值的宽化类型转换(Widening Numeric Conversion,小范围类型向大范围类型的安全转换)。也就是说,并不需要指令执行,包括:
从 int 类型到 long、float 或者 double 类型,对应的指令为:i2l、i2f、i2d
从 long 类型到float、double 类型。对应的指令为:l2f、l2d
从 flaot 类型到 double 类型。对应的指令为:f2d
简化为:int --> long --> float --> double
精度损失问题
①宽化类型转换是不会因为超过目标类型最大值而丢失信息的,例如,从 int 转换到 long,或者从 int 转换到 double,都不会丢失任何信息,转换前后的值是精确相等的
②从 int、long 类型数值转换到 float,或者 long 类型树脂转换到 double 时,将可能发生丢失精度——可能丢失掉几个最低有效位上的值,转换后的浮点数值是根据 IEEE754 最接近舍入模式所得到的正确整数数值。尽管宽化类型转换实际上是可能发生精度丢失的,但是这种转换永远不会导致 Java 虚拟机抛出运行时异常
③从 byte、char 和 short 类型到 int 类型的宽化类型转换实际上是不存在的,对于 byte 类型转换为 int,虚拟机并没有做实质性的转化处理,知识简单地通过操作数栈交换了两个数据。而 byte 转为 long 时,使用的是 i2l,可以看到在内部 byte 在这里已经等同于 int 类型处理,类似的还有 short 类型,这种处理方式有两个特点:
一方面可以减少实际的数据类型,如果为 short 和 byte 都准备一套指令,那么指令的数量就会大增,而虚拟机目前的设计上,只愿意使用一个字节表示指令,因此指令总数不能超过256个,为了节省指令资源,将 short 和 byte 当作 int 处理也是情理之中
另一方面,由于局部变量表中的槽位固定为32位,无论是 byte 或者 short 存入局部变量表,都会占用32位空间。从这个角度来说,也没有必要特意区分这几种数据类型
窄化类型转换(Narrowing Numeric Conversion)
转换规则:Java 虚拟机也直接支持以下窄化类型转换
从 int 类型至 byte、short 或者 char 类型。对应的指令有:i2b、i2c、i2s
从 long 类型到 int 类型。对应的指令有:l2i
从 float 类型到 int 或者 long 类型。对应的指令有:f2i、f2l
从 double 类型到int、long 或者 float 类型。对应的指令有:d2i、d2l、d2f
精度损失问题
窄化类型转换可能会导致转换结果具备不同的正负号、不同的数量级,因此,转换过程很可能会导致数值丢失精度
尽管数据类型窄化转换可能会发生上限溢出、下限溢出和精度丢失等情况,但是 Java 虚拟机规范中明确规定数值类型的窄化转换指令永远不可能导致虚拟机抛出运行时异常
补充说明
当一个浮点值窄化转换为整数类型 T(T 限于 int 或 long 类型之一)的时候,将遵循以下转换规则:
如果浮点值是 NaN,那转换结果就是 int 或 long 类型的0 如果浮点值不是无穷大的话,浮点值使用 IEEE754
的向零舍入模式取整,获得整数值 v,如果 v 在目标类型 T(int 或 long)的表示范围之内,那转换结果就是 v。否则,将根据 v
的符号,转换为 T 所能表示的最大或者最小正数当一个 double 类型窄化转换为 float 类型时,将遵循以下转换规则: 通过向最接近数舍入模式舍入一个可以使用 float
类型表示的数字。最后结果根据下面这3条规则判断: 如果转换结果的绝对值太小而无法使用 float 来表示,将返回 float 类型的正负零
如果转换结果的绝对值太大而无法使用 float 来表示,将返回 float 类型的正负无穷大 对于 double 类型的 NaN
值将按规定转换为 float 类型的 NaN 值
4.3.4 对象的创建与访问指令
创建指令
虽然类实例和数组都是对象,但 Java 虚拟机对类实例和数组的创建与操作使用了不同的字节码指令
① 创建类实例的指令:new
它接收一个操作数,为指向常量池的索引,表示要创建的类型,执行完成后,将对象的引用压入栈
② 创建数组的指令:newarray、anewarray、multianewarray
newarray:创建基本类型数组
anewarray:创建引用类型数组
multianewarray:创建多维数组
上述创建指令可以用于创建对象或者数组,由于对象和数组在 Java 中的广泛使用,这些指令的使用频率也很高
字段访问指令
对象创建后,就可以通过对象访问指令获取对象实例或数组实例中的字段或者数组元素
访问类字段(static 字段,或者称为类变量)的指令:getstatic、putstatic
访问类实例字段(非 static 字段,或者称为实例变量)的指令:getfield、putfield
举例:
以 getstatic 指令为例,它含有一个操作数,为指向常量池的 Fieldref 索引,它的作用就是获取 Fieldref 指定的对象或者值,并将其压入操作数栈:
public void sayHello() {
System.out.println("Hello");
}
0 getstatic #8 <java/lang/System.out>
3 ldc #9 <Hello>
5 invokevirtual #10 <java/io/PrintStream.println>
8 return
图示:
数组操作指令
数组操作指令主要有:xastore 和 xaload 指令。具体为:
- 把一个数组元素加载到操作数栈的指令:baload、caload、saload、iaload、laload、faload、daload、aaload
- 将一个操作数栈的值存储到数组元素中的指令:bastore、castore、sastore、iastore、lastore、fastore、dastore、aastore
取数组长度的指令:arraylength
该指令弹出栈顶的数组元素,获取数组的长度,将长度压入栈
说明:
指令 xaload 表示将数组的元素压栈,比如 saload、caload 分别表示压入 short 数组和 char 数组。指令 xaload 在执行时,要求操作数中栈顶元素为数组索引 i,栈顶顺位第2个元素为数组引用 a,该指令会弹出栈顶这两个元素,并将 a[i] 重新压入堆栈
xastore 则专门针对数组操作,以 iastore 为例,它用于给一个 int 数组的给定索引赋值。在 iastore 执行前,操作数栈顶需要以此准备3个元素:值、索引、数组饮用,iastore 会弹出这3个值,并将值赋给数组中指定索引的位置
类型检查指令
检查类实例或数组类型的指令:instanceof、checkcast
- 指令 checkcast 用于检查类型强制转换是否可以进行。如果可以进行,那么 checkcast 指令不会改变操作数栈,否则它会抛出 ClassCastException 异常
- 指令 instanceof 用来判断给定对象是否是某一个类的实例,它会将判断结果压入操作数栈
4.3.5 方法调用与返回指令
方法调用指令:invokevirtual、invokeinterface、invokespecial、invokestatic、invokedynamic
- invokevirtual 指令用于调用对象的实例方法,根据对象的实际类型进行分派(虚方法分派),支持多态。这也是 Java 语言中最常见的方法分派方式
- invokeinterface指令用于调用接口方法,它会在运行时搜索由特定对象所实现的这个接口方法,并找出适合的方法进行调用
- invokespecial 指令用于调用一些需要特殊处理的实例方法,包括实例初始化方法(构造器)、私有方法和父类方法。这些方法都是静态类型绑定的,不会在调用时进行动态派发
- invokestatic 指令用于调用命名类中的类方法(static 方法)。这是静态绑定的
- invokedynamic调用动态绑定的方法,这个是 JDK 1.7后新加入的指令。用于在运行时动态解析出调用点限定符所引用的方法,并执行该方法。前面4条调用指令的分派逻辑都固化在 Java 虚拟机内部,而
invokedynamic 指令的分派逻辑是由用户所设定的引导方法决定的。
方法返回指令
方法调用结束前,需要进行返回。方法返回指令是根据返回值的类型区分的
- 包括 ireturn(当返回值是 boolean、byte、char、short 和 int 类型时使用)、lreturn、freturn、dreturn 和 areturn
- 另外还有一条 return 指令供声明为 void 的方法、实例初始化方法以及类和接口的类初始化方法使用
举例:
通过 ireturn 指令,将当前函数操作数栈的顶层元素弹出,并将这个元素压入调用者函数的操作数栈中(因为调用者非常关心函数的返回值),所有在当前函数操作数栈中的其他元素都会被丢弃
如果当前返回的是 synchronized 方法,那么还会执行一个隐含的 monitorexit 指令,退出临界区
最后,会丢弃当前方法的整个帧,恢复调用者的帧,并将控制权转交给调用者。
4.3.6 操作数栈管理指令
如同操作一个普通数据结构中的堆栈那样,JVM 提供的操作数栈管理指令,可以用于直接操作操作数栈的指令。
这类指令包括如下内容:
- 将一个或两个元素从栈顶弹出,并且直接废弃:pop、pop2
- 复制栈顶一个或两个数值并将复制值或双份的复制值重新压入栈顶:dup、dup2、dup_x1、dup2_x1、du p_x2、dup2_x2
- 将栈最顶端的两个 Slot 数值位置交换:swap、Java 虚拟机没有提供交换两个64位数据类型(long、double)数值的指令
- 指令 nop 是一个非常特殊的指令,它的字节码为0x00。和汇编语言中的 nop 一样,它表示什么都不做,这条指令一般可用于调试、占位等
这些指令属于通用型,对栈的压入或者弹出无需知名数据类型
说明:
- 不带 _x 的指令是复制栈顶数据并压入栈顶。包括两个指令,dup 和 dup2,dup 的系数代表要复制的 Slot 个数。dup 开头的指令用于复制1个 Slot 的数据。例如1个 int 或1个 reference 类型数据。dup2 开头的指令用于复制2个 Slot 的数据。例如1个 long,或2个 int,或1个 int 加1个 float 类型数据
- 带 _x 的指令是复制栈顶数据并插入栈顶以下的某个位置。共有4个指令,dup_x1、dup2_x1、dup_x2、dup2_x2。对于带 _x 的复制插入指令,只要将指令的 dup 和 x 的系数相加,结果即为需要插入的位置。因此
dup_x1 插入位置:1+1=2,即栈顶2个 Slot 下面
dup_x2 插入位置:1+2=3,即栈顶3个 Slot 下面
dup2_x1 插入位置:2+1=3,即栈顶3个 Slot 下面
dup2_x2 插入位置:2+2=4,即栈顶4个 Slot 下面 - pop:将栈顶的1个 Slot 数值出栈。例如1个 short 类型数值
- pop2:将栈顶的2个 Slot 数值出栈。例如1个 double 类型数值,或者2个 int 类型数值
4.3.7 控制转移指令
程序流程离不开条件控制,为了支持条件跳转,虚拟机提供了大量字节码指令,大体上可以分为比较指令、条件跳转指令、比较条件跳转指令、多条件分支跳转指令、无条件跳转指令等。
条件跳转指令
条件跳转指令通常和比较指令结合使用。在条件跳转指令执行前,一般可以先用比较指令进行栈顶元素的准备,然后进行条件跳转
条件跳转指令有:ifeq、iflt、ifle、ifne、ifgt、ifge、ifnull、ifnonnull。这些指令都接收两个字节的操作数,用于计算跳转的位置(16位符号整数作为当前位置的 offset)
它们的统一含义为:弹出栈顶元素,测试它是否满足某一条件,如果满足条件,则跳转到给定位置。
注意:
- 与前面运算规则一致
- 对于 boolean、byte、char、short 类型的条件分支比较操作,都是使用 int 类型的比较指令完成
- 对于 long、float、double 类型的条件分支比较操作,则会先执行相应类型的比较运算指令,运算指
- 会返回一个整型值到操作数栈中,随后再执行 int 类型的条件分支比较操作来完成整个分支跳转
- 由于各类型的比较最终都会转为 int 类型的比较操作,所以 Java 虚拟机提供的 int 类型的条件分支指令是最为丰富和强大的
比较条件跳转指令
比较条件跳转指令类似于比较指令和条件跳转指令的结合体,它将比较和跳转两个步骤合二为一
这类指令有:if_icmped、if_icmpne、if_icmplt、if_icmpgt、if_icmple、if_icmpge、if_acmped 和 if_acmpne
其中指令助记符加上 “if_” 后,以字符 “i” 开头的指令针对 int 型整数操作(也包括 short 和 byte 类型),以字符 “a” 开头的指令表示对象引用的比较
这些指令都接收两个字节的操作数作为参数,用于计算跳转的位置。同时在执行指令时,栈顶需要准备两个元素进行比较。指令执行完成后,栈顶的这两个元素被清空,且没有任何数据入栈。如果预设条件成立,则执行跳转,否则,继续执行下一条语句。
多条件分支跳转
多条件分支跳转指令是专为 switch-case 语句设计的,主要有 tableswitch 和 lookupswitch
从助记符上看,两者都是 switch 语句的实现,它们的区别:
- tableswitch 要求多个条件分支值是连续的,它内部只存放起始值和终止值,以及若干个跳转偏移量,通过给定的操作数 index,可以立即定位到跳转偏移量位置,因此效率比较高
- lookupswitch 内部存放着各个离散的 case-offset 对,每次执行都要搜索全部的 case-offset 对,找到匹配的 case 值,并根据对应的 offset 计算跳转地址,因此效率较低
指令 tableswitch 的示意图如下图所示。由于 tableswitch 的 case 值是连续的,因此只需要记录最低值和最高值,以及每一项对应的 offset 偏移量,根据给定的 index 值通过简单的计算即可直接定位到 offset。
指令 lookupswitch 处理的是离散的 case 值,但是出于效率考虑,将 case-offset 对按照 case 值大小排序,给定 index 时,需要查找与 index 相等的 case,获得其 offset,如果找不到则跳转到 default。指令 lookupswitch 如下图所示。
无条件跳转
目前主要的无条件跳转指令为 goto,指令 goto 接收两个字节的操作数,共同组成一个带符号的整数,用于指定指令的偏移量,指令执行的目的就是跳转到偏移量给定的位置处
如果指令偏移量太大,超过双字节的带符号整数的范围,则可以使用指令 goto_w,它和 goto 有相同的作用,但是它接收4个字节的操作数,可以表示更大的地址范围
指令 jsr、jsr_w、ret 虽然也是无条件跳转的,但主要用于 try-finally 语句,且已经被虚拟机逐渐废弃,故不在这里介绍这两个指令。
4.3.8 异常处理指令
athrow 指令
在 Java 程序中显式抛出异常的操作(throw 语句)都是由 athrow 指令来实现的
除了使用 throw 语句显式抛出异常情况之外,JVM 规范还规定了许多运行时一场会在其它 Java 虚拟机指令检测到异常状况时自动抛出。例如,在之前介绍的整数运算时,当除数为零时,虚拟机会在 idiv 或 ldiv 指令中抛出 ArithmeticException 异常
注意:
正常情况下,操作数栈的压入弹出都是一条条指令完成的。唯一的例外情况是在抛异常时,Java 虚拟机会清除操作数栈上的所有内容,而后将异常实例压入调用者操作数栈上
异常及异常的处理:
过程一:异常对象的生成过程 —> throw(手动/自动) —> 指令:athrow
过程二:异常的处理:抓抛模型 try-catch-finally —> 使用异常表
异常处理与异常表
处理异常
在 Java 虚拟机中,处理异常(catch 语句)不是由字节码指令来实现的(早期使用 jsr、ret 指令),而是采用异常表来完成的
异常表
如果一个方法定义了一个 try-catch 或者 try-finally 的异常处理,就会创建一个异常表。它包含了每个异常处理或者 finally 块的信息。异常表保存了每个异常处理信息。比如:
- 起始位置
- 结束位置
- 程序计数器记录的代码处理的偏移地址
- 被捕获的异常类在常量池中的索引
当一个异常被抛出时,JVM 会在当前的方法里寻找一个匹配的处理,如果没有找到,这个方法会强制结束并弹出当前栈帧,并且异常会重新抛给上层调用的方法(在调用方法栈帧)。如果在所有栈帧弹出前仍然没有找到合适的异常处理,这个县城将终止。如果这个异常在最后一个非守护线程里抛出,将会导致 JVM 自己终止,比如这个线程是个 main 线程
不管什么时候抛出异常,如果异常处理最终匹配了所有异常类型,代码就会继续执行。在这种情况下, 如果方法结束后没有抛出异常,仍然执行 finally 块,在 return 前,它直接跳到 finally 块来完成目标
4.3.9 同步控制指令
Java 虚拟机支持两种同步结构:方法级同步 和 方法内部一段指令序列的同步,这两种同步都是使用 monitor 来支持的。
方法级的同步
方法级的同步:是隐式的,即无需通过字节码指令来控制,它实现在方法调用和返回操作之中。虚拟机可以从方法常量池的方法表结构中的 ACC_SYNCHRONIZED 访问标志得知一个方法是否声明为同步方法
当调用方法时,调用指令将会检查方法的 ACC_SYNCHRONIZED 访问标志是否设置
- 如果设置了,执行线程将先持有同步锁,然后执行方法,最后在方法完成(无论是正常完成还是非正常完成)时释放同步锁
- 在方法执行期间,执行线程持有了同步锁,其它任何线程都无法再获得同一个锁
- 如果一个同步方法执行期间抛出了异常,并且在方法内部无法处理此异常,那么这个同步方法所持有的锁将在异常抛到同步方法之外时自动释放
private int i = 0;
public synchronized void add() {
i++;
}
0 aload_0
1 dup
2 getdield #2 <com/atguigu/java1/SynchronizedTest.i>
5 iconst_1
6 iadd
7 putfield #2 <com/atguigu/java1/SynchronizedTest.i>
10 return
说明:
这段代码和普通的无同步操作的代码没有什么不同,没有使用 monitorenter 和 monitorexit 进行同步区控制。这是因为,对于同步方法而言,当虚拟机通过方法的访问标识符判断是一个同步方法时,会自动在方法调用前进行加锁,当同步方法执行完毕后,不管方法是正常结束还是有异常抛出,均会由虚拟机释放这个锁。因此,对于同步方法而言,monitorenter 和 monitorexit 指令是隐式存在的,并未直接出现在字节码中
方法内指定指令序列的同步
同步一段指令集序列:通常是由 Java 中的 synchronized 语句块来表示的。JVM 的指令集有 monitorenter 和 monitorexit 两条指令来支持 synchronized 关键字的语义
当一个线程进入同步代码块时,它使用 monitorenter 指令请求进入。如果当前对象的监视器计数器为0,则它会被准许进入,若为1,则判断持有当前监视器的线程是否为自己,如果是,则进入,否则进行等待,知道对象的监视器计数器为0,才会被允许进入同步块
当线程退出同步块时,需要使用 monitorexit 声明退出。在 Java 虚拟机中,任何对象都有一个监视器与之相关联,用来判断对象是否被锁定,当监视器被持有后,对象处于锁定状态
指令 monitorenter 和 monitorexit 在执行时,都需要在操作数栈顶压入对象,之后 monitorenter 和 monitorexit 的锁定和释放都是针对这个对象的监视器进行的
编译器必须确保无论方法通过何种方式完成,方法中调用过的每条 monitorenter 指令都必须执行其对应的 monitorexit 指令,而无论这个方法是正常结束还是异常结束
为了保证在方法异常完成时 monitorenter 和 monitorexit 指令依然可以正确配对执行,编译器会自动产生一个异常处理器,这个异常处理器声明可处理所有的异常,它