5 字节码文件结构
99 学习总结
字节码文件结构总结
学习收获
- 理解字节码文件内容的结构
- 学会利用工具初步分析、看懂字节码文件的内容
- 字节码文件对比java文件
- 它结构化为固定的内容格式
- 借用常量池,复用源文件的存在的重复关键词。
- 字节码文件包含了字节码指令,变成字节码的过程就是C语言:预处理-编译-的过程。
疑问和待解决
1 字节码文件结构
1.1 概述
- 字节码文件:是一组以8个字节为基础单位的二进制流,当需要存储空间超过8字节时,会按照高位在前的方式分割【大端法】成若干个8个字节进行存储。
- 数据类型可抽象为两种:“无符号数”和“表”。
- 无符号数可以用来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。(基本数据类型)。用以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数。
- 表是由多个无符号数或者其他表作为数据项构成的复合数据类型,表的命名都以“_info”结尾
- 字节码文件结构不带分割符号
组成及空间占比如下:
1.2 关于“表”的说明
表是什么?
- 是字节码的两种数据类型之一
- 是一种复合数据类型
- 由一个或者的无符号数或者表组成
- 可以理解为Java对象:对象由多个属性组成,属性可以为基本数据类型,或者为对象类型
2 魔数
- 头4个字节,固定值为:0xCAFEBABE。
- 作用是确定这个文件是否为一个能被虚拟机接受的Class文件
3 版本号
- 魔数的后继4个字节,第5和第6个字节是次版本号,第7和第8个字节是主版本号
- 作用是识别JDK版本
4 常量池
常量池的常量分为两种类型:字面量、符号引用两种
4.1 字面量
字面量比较接近于Java语言层面的常量概念,如文本字符串、被声明为final的常量值等。
4.2 符号引用
- 以一组符号来描述所引用的目标,符号可以是任何形式的字面量
- 目标包括这几类:
- 包(Package)
- 类和接口的全名
- 字段的名称和描述符
- 方法的名称和描述符
- 方法句柄和方法类型
- 动态调用点和动态常量
4.3 常量的表结构
常量池中每一项常量都是一个表,一共有17种表结构,因此一共有17种常量。17种常量类型如下所示:
4.3.1 表结构的属性解析
表结构,可以表示为:【属性:对应的值】,每种常量类型(表)都有一个或者多个属性,所有属性的解释如下:
- tag:标志位,用于区分常量类型。
- index:常量池的索引值,它指向常量池中另外一种类型常量。
- length:该UTF-8编码的字符串长度是多少字节 (只有CONSTANT_Utf8_info类型才有该属性)
- bytes:表示 UTF-8_info、Float_info、integer_info 、Long_info、Double_info 等常量类型的值。
- reference_kind:
- reference:index:
- descriptor_index:
- .......
2.3.2 17种常量的表结构解析
表结构起始的第一位都是flag标志位
(JDK7增加的三种:CONSTANT_MethodHandle_info、CONSTANT_MethodType_info和 CONSTANT_InvokeDynamic_info,JDK11中又增加了第四种常量CONSTANT_Dynamic_info,在后续章节中详细解)
5 访问标志
- 用于识别一些类或者接口层次的访问信息。
- 在常量池之后,占据2个字节。
部分访问标志如下所示:
以 ByteCodeTest_1类为例子:
package com.minnesota.practice.test;
public final class ByteCodeTest_1 {
public static void main(String[] args) {
}
}
它符合这三点:
- public类型
- 被声明为final
- JDK1.2之后的编译器编译
因此它的访问标志(access_flags)为:ACC_PUBLIC+ACC_SUPER+ACC_FINAL,即 0x0001+0x0010+0x0020=0x0031。
访问标志计算:如果该标志为真,则使用其标志值,并将多个标志值相加
跟字节码结果一致
6 类索引、父类索引与接口索引集合
- Class文件中由这三项数据来确定该类型的继承关系
- 类索引:用于确定这个类的全名
- 父类索引:用于确定这个类的父类的全名
- 接口索引集合:用来描述这个类实现了哪些接口 (按implements/extends后面从左到右顺序的接口集合)
- 类索引和父类索引都是占用2个字节存储,接口索引集合:由占据2字节的接口计数器,和索引表 两部分组成。如果该类没有实现任何接口,则该计数器值为0,后面接口的索引表不再占用任何字节
7 字段表集合
- 字段表:用来描述接口或类中声明的类变量(不包括局部变量)。
- 字段表集合由:访问标志、简名索引、及类型索引、属性集合 四部分组成。
- 字段表集合中不会列出从父类或者父接口中继承而来的字段
如下所示:
7.1 访问标志
访问标志:access_flags,是指变量的信息,例如:作用域(public、private、protected修饰符)、是实例变量还是类变量(static修饰符)、可变性(final)、并发可见性(volatile修饰符)、可否被序列化(transient修饰符)等信息。
访问标志的值如下:
7.2 简名索引
简单名称就是指不包含类型和参数修饰的变量名称,例如 private static final String DREAM = "byte dancing",简单名称就是:DREAM。简单名称的值是指向常量池的一个索引
7.3 类型索引
描述符:描述字段的数据类型。根据描述符规则,基本数据类 型(byte、char、double、float、int、long、short、boolean)以及代表无返回值的void类型都用一个大写字符来表示,而对象类型则用字符L加对象的全限定名来表示。该索引指向常量池
如下所示:
7.4 属性集合
- 包含属性数量、属性列表两部分,表示在该字段中添加一些扩展属性。
- 它属于表类型
- 它是非必须的。
8 方法表集合
方法表的结构如同字段表一样,依次包括访问标志(access_flags)、名称索引(name_index)、描述符索引(descriptor_index)、属性表集合(attributes)。如下所示
8.1 访问标志
如下图所示:
8.2 简名索引
规范跟字段的简名索引一样,例如main
8.3 描述符索引
指方法的返回类型
定义跟字段描述符一样
8.4 属性表集合
属性表集合也是包含属性数量和属性列表。
8.5 关于方法体代码的存储
方法里面的代码去哪里了?
方法里的Java代码,经过Javac编译器编译成字节码指令之 后,存放在方法属性表集合中一个名为“Code”的属性里面,属性表作为Class文件格式中最具扩展性的一种数据项目
9 属性表集合
属性表集合是什么?
- 由多个属性组成
- 属性的数据类型为表
- 它是一种扩展空间,Class文件、字段表、方法表都可以携带自己的属性表集合,以描述某些场景专有的信息
属性的结构分为三部分:
名称 | 内存分配 | 存储内容 | 其他 | 英文表示 |
---|---|---|---|---|
属性名称索引 | 2字节 | 指向常量池的一个索引 | 所有属性都有结构 | attribute_name_index |
属性长度 | 4字节 | 属性值占用的字节数 | 所有属性都有该结构 | attribute_length |
属性值 | 保存除了属性名称索引和属性长度外,其他组成部分,结构自定义 | info |
9.1 Code属性
Code属性:保存方法体代码编译后的字节码内容。
以下内容比较重要
Code属性是Class文件中最重要的一个属性,如果把一个Java程序中的信息分为代码(Code,方法体里面的Java代码)和元数据(Metadata,包括类、字段、方法定义及其他信息)两部分,那么在整 个Class文件里,Code属性用于描述代码,所有的其他数据项目都用于描述元数据
名称 | 代表意义 | 类型 | 内存分配 |
---|---|---|---|
attribute_name_index | 属性名称索引,指向常量池,该常量固定值为“Code” | 无符号数 | 2字节 |
attribute_length | 参考上面属性结构说明 | 无符号数 | 4字节 |
max_stack | 操作数栈深度最大值,即该栈空间允许分配的最大字节数,例如该栈最多可存32个字节 | 无符号数 | 2字节 |
max_locals | 局部变量表所需的存储空间,单位是变量槽(Slot),变量槽是虚拟机为局部变量分配内存所使用的最小单位 | 无符号数 | 2字节 |
code_length | 字节码长度,理论上字节码最大可以为2^32 ,实际上最大只有2^16-1= 65535。即最大可容纳65535个字节码指令 | 无符号数 | 4字节 |
code | 存储字节码指令的一系列字节流,编译器通过指令编码找到对应的指令,由指令来判断是否需要操作数以及如何解析操作数 | 无符号数 | code_length的值 |
exception_length | 异常表长度 | 无符号数 | 2字节 |
exception_table | 异常表 | 表 | exception_length的值 |
关于变量槽:
对于byte、char、float、int、short、boolean和 returnAddress等长度不超过32位的数据类型,每个局部变量占用1个变量槽,而double和long这两种64位的数据类型则需要2个变量槽来存放。
9.2 Exceptions属性
Exceptions属性的作用是列举出方法中可能抛出的受查异常,即方法描述时在throws关键字后面列举的异常
结构分析:略
9.3 LineNumberTable属性
用于描述Java源码行号与字节码行号(字节码的偏移量)之间的对应关系。
作用有两点:
- 当抛出异常时,堆栈将会显示出错的行号
- 并且在调试程序的时候,可以按照源码行来设置断点。
结构分析:略
9.4 LocalVariableTable
LocalVariableTable属性用于描述栈帧中局部变量表的变量与Java源码中定义的变量之间的关系。
作用:IDEA编辑中调用方法时会自动补充参数名称;debug时根据参数名称获取对应的值
如果没有生成这项属性,最大的影响就是当其他人引用这个方法时,所有的参数名称都将会丢失,譬如IDE将会使用诸如arg0、arg1之类的占位符代替原有的参数名,这对程序运行没有影响,但是会对代码编写带来较大不便,而且在调试期间无法根据参数名称从上下文中获得参数值
9.5 LocalVariableTypeTable
跟泛型有关,当泛型的参数化类型被擦除后,使用字段的特征签名来完成泛型的描述
9.6 SourceFile及SourceDebugExtension属性
- SourceFile:记录生成这个Class文件的源码文件名称
- SourceDebugExtension:JDK5新增的属性,用于存储额外的代码调试信息。
9.7 ConstantValue属性
作用是通知虚拟机自动为静态变量赋值
9.8 InnerClasses属性
记录内部类与宿主类之间的关联。
9.9 所有29个属性概览
10 字节码文件实例分析
javap:用于分析Class文件字节码的工具,在JDK的bin目录中。
javap -verbose 输出字节码的内容。
测试的java代码:
package com.minnesota.practice.test;
public class ByteCodeTest {
private static final String DREAM = "byte dancing";
public static void main(String[] args) {
int a = 1;
int b = 2;
int c = a+b;
}
}
ByteCodeTest.class 内容浏览:
javap -verbose ByteCodeTest.class 解析后:
javap -verbose ByteCodeTest.class
输出结果:
Classfile /路径脱敏/ByteCodeTest.class
Last modified 2022-10-25; size 396 bytes
MD5 checksum be72a2ed3bf8578da63968ce35880d3d
Compiled from "ByteCodeTest.java"
public class com.minnesota.practice.test.ByteCodeTest
minor version: 0
major version: 52
flags: ACC_PUBLIC, ACC_SUPER
Constant pool:
#1 = Methodref #3.#16 // java/lang/Object."<init>":()V
#2 = Class #17 // com/minnesota/practice/test/ByteCodeTest
#3 = Class #18 // java/lang/Object
#4 = Utf8 DREAM
#5 = Utf8 Ljava/lang/String;
#6 = Utf8 ConstantValue
#7 = String #19 // byte dancing
#8 = Utf8 <init>
#9 = Utf8 ()V
#10 = Utf8 Code
#11 = Utf8 LineNumberTable
#12 = Utf8 main
#13 = Utf8 ([Ljava/lang/String;)V
#14 = Utf8 SourceFile
#15 = Utf8 ByteCodeTest.java
#16 = NameAndType #8:#9 // "<init>":()V
#17 = Utf8 com/minnesota/practice/test/ByteCodeTest
#18 = Utf8 java/lang/Object
#19 = Utf8 byte dancing
{
public com.minnesota.practice.test.ByteCodeTest();
descriptor: ()V
flags: ACC_PUBLIC
Code:
stack=1, locals=1, args_size=1
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: return
LineNumberTable:
line 3: 0
public static void main(java.lang.String[]);
descriptor: ([Ljava/lang/String;)V
flags: ACC_PUBLIC, ACC_STATIC
Code:
stack=2, locals=4, args_size=1
0: iconst_1
1: istore_1
2: iconst_2
3: istore_2
4: iload_1
5: iload_2
6: iadd
7: istore_3
8: return
LineNumberTable:
line 6: 0
line 7: 2
line 8: 4
line 9: 8
}
SourceFile: "ByteCodeTest.java"
详细的字节码文件内容分析,待续