Java字节码指令
1. 简介
Java虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字(称为操作码)以及跟随其后的零至多个代表此操作所需参数(称为操作数)而构成。
由于Java虚拟机采用面向操作数栈而不是寄存器的架构,所以大多数的指令都不包含操作数,只有一个操作码。
Java虚拟机操作码的长度为一个字节(即0~255),这意味着指令集的操作码总数不可能超过256条。
2. 字节码和数据类型
在Java虚拟机的指令集中,大多数的指令都包含了其操作所对应的数据类型信息。例如,iload指令用于从局部变量中加载int型的数据到操作数栈中,而fload指令加载的则是float类型的数据。
大部分与数据类型相关的字节码指令,它们的操作码助记符都有特殊的字符来表明专门为哪种数据类型服务:i代表对int类型的数据操作,l代表long,s代表short,b代表byte,c代表char,f代表float,d代表double,a代表reference。也有一些指令的助记符中没有明确地指明操作类型的字母,如arraylength指令。
如果每一种与数据类型相关的指令都支持Java虚拟机所有运行时数据类型的话,那指令的数量就会超出一个字节所能标示的数量范围了。因此,Java虚拟机的指令集对于特定的操作只提供了有限的类型相关指令去支持它,换句话说,指令集将会故意被设计成非完全独立的,有一些单独的指令可以在必要的时候用来将一些不支持的类型转换为可被支持的类型。
3. 字节码分类介绍
3.1 加载和存储指令
加载和存储指令用于将数据在栈帧中的局部变量表和操作数栈之间来回传输。
- 将一个局部变量加载到操作栈:iload,iload_<n>
- 将一个数值从操作数栈存储到局部变量表:istore,istore_<n>
- 将一个常量加载到操作数栈:bipush
- 扩充局部变量表的访问索引的指令:wide
其中iload_<n>代表了一组指令,代表了iload_0,iload_1,iload_3这几条指令。这几组指令都是某个带有一个操作数的通用指令的特殊形式,对于这若干组特殊指令来说,他们省略了显式的操作数,不需要进行取操作数的动作。实际上操作数就隐含在指令中。例如,iload_0的语义与操作数为0时的iload指令语义完全一致。
3.2 运算指令
运算或算术指令用于对两个操作数栈上的值进行某种特定运算,并把结果重新存入到操作栈顶。大体上算术指令可以分为两种:对整型数据进行运算的指令与对浮点型数据进行运算的指令。无论是哪种算术指令,都使用Java虚拟机的数据类型,由于没有直接支持byte、short、char和boolean类型的算术指令,对于这类数据的运算,应使用操作int类型的指令代替。整数与浮点数的算术指令在溢出和被零除的时候也有各自不同的行为表现,所有的算术指令如下:
- 加法指令:iadd,ladd,fadd,dadd
- 减法指令:isub,lsub,fsub,dsub
- 乘法指令:imul,lmul,fmul,dmul
- 除法指令:idiv,ldiv,fdiv,ddiv
- 求余指令:irem,lrem,frem,drem
- 取反指令:ineg,lneg,fneg,dneg
- 位移指令:ishl,ishr,iushr,lshl,lshr,lushr
- 按位或指令:ior,lor
- 按位与指令:iand,land
- 按位异或指令:ixor,lxor
- 局部变量自增指令:iinc
- 比较指令:dcmpg,dcmpl,fcmpg,fcmpl,lcmp
数据运算可能会导致溢出,例如:两个很大的正整数相加,结果可能会是一个负数,其实Java虚拟机规范没有明确定义过整型数据溢出的具体运算结果,仅规定了在处理整型数据时,只有除法指令(idiv和ldiv)以及求余指令(irem和lrem)中当出现除数为零时会导致虚拟机抛出ArithmeticException溢出,其余任何整型数运算场景都不应该抛出运行时异常。
3.3 类型转换指令
类型转换指令可以将两种不同的数值类型进行相互转换,这些转换操作一般用于实现用户代码中的显式类型转换操作。
Java虚拟机直接支持以下数值类型的宽化类型转换(Widening Numeric Conversions,即小范围类型向大范围类型的安全转换)
- int类型到long,float或double
- long类型到float,double
- float类型到double
相对的,处理窄化类型转换(Narrowing Numberic Conversions)时,必须显式地使用转换指令来完成,这些转换执行包括:i2b,i2c,i2s,l2i,f2i,f2l,d2i,d2l和d2f。窄化类型转换可能会导致转换结果产生不同的正负号、不同的数量级的情况,转换过程很可能会导致数值的精度丢失。
尽管数据类型窄化转换可能会发生上限溢出、下限溢出和精度丢失等情况,但是Java虚拟机规范中明确规定数值类型的窄化转换指令永远不可能导致虚拟机抛出运行时异常。
3.4 对象创建和访问指令
虽然类实例和数组都是对象,但Java虚拟机对类实例和数组的创建与操作使用了不同的字节码指令,指令如下:
- 创建类实例的指令:new
- 创建数组的指令:newarray,anewarray,multianewarray
- 访问类字段和实例字段的指令:getfield,putfield,getstatic,putstatic
- 把一个数组元素加载到操作数栈的指令:baload,caload,saload,iaload,laload,faload,daload,aaload
- 将一个操作数栈的值存储到数组元素中的指令:bastore,castore,sastore,iastorefastore,dastore,aastore
- 取数组长度的指令:arraylength
- 检查类实例类型的指令:instanceof,checkcast
3.5 操作数栈管理指令
如同操作一个普通数据结构中的堆栈那样,Java虚拟机提供了一些用于直接操作操作数栈的指令,包括:
- 将操作数栈的栈顶一个或两个元素出栈:pop,pop2
- 复制栈顶一个或两个数值并将复制值或双份的复制值重新压入栈顶:dup,dup2,dup_x1,dup2_x1,dup_x2,dup2_x2
- 将栈最顶端的两个数值互换:swap
3.6 控制转移指令
控制转移指令可以让Java虚拟机有条件或无条件地从指定的位置指令而不是控制转移指令的下一条指令继续执行程序,从概念模型上理解,可以认为控制转移指令就是在有条件或无条件地修改PC寄存器的值。控制转移指令如下:
- 条件分支:ifeq,iflt,ifle,ifne,ifgt,ifge,ifnull,ifnonnull,if_icmpeq,if_icmpne,if_icmplt,if_icmpgt,if_icmple,if_icmpge,if_acmpeq和if_acmpne
- 复合条件分支:tableswitch,lookupswitch
- 无条件分支:goto,goto_w,jsr,jsr_w,ret
3.7 方法调用和返回指令
- invokevirtual:指令用于调用对象的实例方法,根据对象的实际类型进行分派,这也是Java语言中最常见的方法分派方式‘;
- invokeinterface:指令用于调用接口方法,它会在运行时搜索一个实现了这个接口方法的对象,找到合适的方法进行调用;
- invokespecial:用于调用一些需要特殊处理的实例方法,包括实例初始化方法、私有方法和父类方法;
- invokestatic:用于调用类方法(static方法)
- invokedynamic:用于在运行时动态解析出调用点限定符所引用的方法,并执行该方法,前面4条调用指令的分派逻辑都固化在Java虚拟机内部,而invokedynamic指令的分派逻辑是由用户所设定的引导方法决定的。
方法调用指令与数据类型无关,而方法返回指令时根据返回值的类型区别的,包括ireturn(返回值是boolean,byte,char,short和int),lreturn,freturn,dreturn和areturn,另外还有一条return指令供void方法,实例初始化方法以及类和接口的类初始化方法使用。
3.8 异常处理指令
在Java程序中显式抛出异常的操作(throw语句)都由athrow指令来实现。
Java虚拟机规范还规定了许多运行时异常会在其他Java虚拟机指令检测到异常状况时自动抛出。
而在Java虚拟机中,处理异常(catch语句)不是由字节码指令来实现的,而是采用异常表来完成。
3.9 同步指令
Java虚拟机可以支持方法级的同步和方法内部一段指令序列的同步,这两种同步结构都是使用管程(Monitor)来支持的。
Java虚拟机的指令集中有monitorenter和monitorexit两条指令来支持synchronized关键字的语义。
编译器必须确保无论方法通过何种方式完成,方法中调用过的每条monitorenter指令都必须执行其对于的monitorexit指令,而无论这个方法是正常结束还是异常结束。