类文件结构简介
理解类加载机制的基础
类文件结构
java编译后会生成字节码文件(*.class,即类文件),其之所以能够“一次编写,到处运行”是因为字节码文件时平台无关的,这些类文件被各个平台上的虚拟机加载执行,即 字节码平台无关,虚拟机平台相关。
任何一个.class文件对应一个类/接口,但是类/接口可能通过类加载器直接生成,不一定定义在.class文件中。
1.1 类文件结构
*.class
文件是一组8位为基础单位的二进制流(4位标识一个16进制数,所以两个16进制数标识一个8位)。如果一个数据项需要一个以上的8位存储空间,则按照高位在前big-endian的方式使用若干个8位进行存储。
数据类型
Class文件有两种数据类型:
- 无符号数:基本数据类型,u1/u2/u4/u8分别代表1/2/4/8个字节的无符号数,用来描述数字、索引引用、数量之和按照utf-8编码构成的字符串值。
- 表:有多个无符号数和其他表组成的复合数据类型,以“_info”结尾。用于描述有层次关系的复合结构的数据。
class文件结构
class文件本质就是一张表,构成class文件的数据项如图所示:
- 描述同一类型但是数量不定的多个数据时,经常使用一个前置的容量计数器加若干个连续的数据项的形式——称这一系列连续的数据为某一类型的集合。
如下代码编译:
package org.fenixsoft.clazz;
public class TestClass {
private int m;
public int inc(){
return m+1;
}
}
使用16进制方式读取文档,class文件示意图如下:
- 每个字符为4位一个16进制数,两个字符为一个字节;
- 前四个字节成为魔数magic number,确定这个类是否是一个能够被虚拟机接受的class文件。class文件的魔数是CAFEBABE(咖啡宝贝);
- 魔数之后是次版本号和主版本号,均为2个字节。如图此版本号是0,主版本号是10进制的52(0x34)。注意jdk对class文件向下兼容,向上不兼容;
- 第9/10个字节是常量池入口,constant-pool-count。如图
00 16
,表示此文件有多少个常量(不仅是自定义的)。常量池是class文件的资源仓库; - 常量池常量大致可以分为两类,字面量literal和符号引用symbolic references:
- 字面量有文本字符串、声明为final的常量等;
- 符号引用是编译原理方面的概念,包括下面三类常量:类和接口的全限定名fully qualified name、字段的名称和描述符descriptor、方法的名称和描述符;
- 常量池项目类型详细如下图:
- 标志就是字节码中对应的标识常量类型的数字。
javap -verbose class文件名
可以查看分析class文件中的信息,代码对应分析信息(版本号、常量、字节码指令)如下:
1.2 字节码指令和字节码指令支持的数据类型
字节码中部分信息在类加载节点被验证,而指令部分这在程序执行时使用。在*java内存区域划分**一节中我们讲到 程序计数器是当前线程所执行字节码的行号的指示器。值得就是上截图中指令部分的内容。
- 字节码指令
加法指令:iadd、ladd、fadd、dadd。
减法指令:isub、lsub、fsub、dsub。
乘法指令:imul、lmul、fmul、dmul。
除法指令:idiv、ldiv、fdiv、ddiv。
求余指令:irem、lrem、frem、drem。
取反指令:ineg、lneg、fneg、dneg。
位移指令:ishl、ishr、iushr、lshl、lshr、lushr。
按位或指令:ior、lor。
按位与指令:iand、land。
按位异或指令:ixor、lxor。
局部变量自增指令:iinc。
比较指令:dcmpg、dcmpl、fcmpg、fcmpl、lcmp。
-
各个指令所支持的数据类型
-
如图很多指令不支持byte/short/char/boolean,因为**编译器在编译期或运行期将byte和short类型带符号扩展sign-extend为相应的int类型,boolean和char零位扩展zero-extend为相应的int类型;
-
字节码指令有操作码opcode和操作数operand两部分组成。有时后者可能没有;
[补充]:基本数据类型和XX扩展
基本数据类型
-
将byte和short类型带符号扩展sign-extend:高位补齐的数字,正0负1;
-
boolean和char零位扩展zero-extend:高位补0;