5 字节码文件结构

99 学习总结

字节码文件结构总结

学习收获

  1. 理解字节码文件内容的结构
  2. 学会利用工具初步分析、看懂字节码文件的内容
  3. 字节码文件对比java文件
    1. 它结构化为固定的内容格式
    2. 借用常量池,复用源文件的存在的重复关键词。
    3. 字节码文件包含了字节码指令,变成字节码的过程就是C语言:预处理-编译-的过程。

疑问和待解决

1 字节码文件结构

1.1 概述

  1. 字节码文件:是一组以8个字节为基础单位的二进制流,当需要存储空间超过8字节时,会按照高位在前的方式分割【大端法】成若干个8个字节进行存储。
  2. 数据类型可抽象为两种:“无符号数”和“表”
  3. 无符号数可以用来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。(基本数据类型)。用以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数。
  4. 表是由多个无符号数或者其他表作为数据项构成的复合数据类型,表的命名都以“_info”结尾
  5. 字节码文件结构不带分割符号

组成及空间占比如下:

1.2 关于“表”的说明

表是什么?

  1. 是字节码的两种数据类型之一
  2. 是一种复合数据类型
  3. 由一个或者的无符号数或者组成
  4. 可以理解为Java对象:对象由多个属性组成,属性可以为基本数据类型,或者为对象类型

2 魔数

  1. 头4个字节,固定值为:0xCAFEBABE
  2. 作用是确定这个文件是否为一个能被虚拟机接受的Class文件

3 版本号

  1. 魔数的后继4个字节,第5和第6个字节是次版本号,第7和第8个字节是主版本号
  2. 作用是识别JDK版本

4 常量池

常量池的常量分为两种类型:字面量、符号引用两种

4.1 字面量

字面量比较接近于Java语言层面的常量概念,如文本字符串、被声明为final的常量值等。

4.2 符号引用

  1. 以一组符号来描述所引用的目标,符号可以是任何形式的字面量
  2. 目标包括这几类:
  • 包(Package)
  • 类和接口的全名
  • 字段的名称和描述符
  • 方法的名称和描述符
  • 方法句柄和方法类型
  • 动态调用点和动态常量

4.3 常量的表结构

常量池中每一项常量都是一个表,一共有17种表结构,因此一共有17种常量。17种常量类型如下所示:

4.3.1 表结构的属性解析

表结构,可以表示为:【属性:对应的值】,每种常量类型(表)都有一个或者多个属性,所有属性的解释如下:

  • tag:标志位,用于区分常量类型。
  • index:常量池的索引值,它指向常量池中另外一种类型常量。
  • length:该UTF-8编码的字符串长度是多少字节 (只有CONSTANT_Utf8_info类型才有该属性)
  • bytes:表示 UTF-8_info、Float_info、integer_info 、Long_info、Double_info 等常量类型的值。
  • reference_kind:
  • reference:index:
  • descriptor_index:
  • .......

2.3.2 17种常量的表结构解析

表结构起始的第一位都是flag标志位

(JDK7增加的三种:CONSTANT_MethodHandle_info、CONSTANT_MethodType_info和 CONSTANT_InvokeDynamic_info,JDK11中又增加了第四种常量CONSTANT_Dynamic_info,在后续章节中详细解)

5 访问标志

  1. 用于识别一些类或者接口层次的访问信息
  2. 在常量池之后,占据2个字节

部分访问标志如下所示:

以 ByteCodeTest_1类为例子

package com.minnesota.practice.test;
public final class ByteCodeTest_1 {
    public static void main(String[] args) {
    }
}

它符合这三点:

  1. public类型
  2. 被声明为final
  3. JDK1.2之后的编译器编译

因此它的访问标志(access_flags)为:ACC_PUBLIC+ACC_SUPER+ACC_FINAL,即 0x0001+0x0010+0x0020=0x0031

访问标志计算:如果该标志为真,则使用其标志值,并将多个标志值相加

跟字节码结果一致

6 类索引、父类索引与接口索引集合

  1. Class文件中由这三项数据来确定该类型的继承关系
  2. 类索引:用于确定这个类的全名
  3. 父类索引:用于确定这个类的父类的全名
  4. 接口索引集合:用来描述这个类实现了哪些接口 (按implements/extends后面从左到右顺序的接口集合)
  5. 类索引和父类索引都是占用2个字节存储,接口索引集合:由占据2字节的接口计数器,和索引表 两部分组成。如果该类没有实现任何接口,则该计数器值为0,后面接口的索引表不再占用任何字节

7 字段表集合

  1. 字段表:用来描述接口或类中声明的类变量(不包括局部变量)。
  2. 字段表集合由:访问标志简名索引、及类型索引、属性集合 四部分组成。
  3. 字段表集合中不会列出从父类或者父接口中继承而来的字段

如下所示:

7.1 访问标志

访问标志:access_flags,是指变量的信息,例如:作用域(public、private、protected修饰符)、是实例变量还是类变量(static修饰符)、可变性(final)、并发可见性(volatile修饰符)、可否被序列化(transient修饰符)等信息。
访问标志的值如下:

7.2 简名索引

简单名称就是指不包含类型和参数修饰的变量名称,例如 private static final String DREAM = "byte dancing",简单名称就是:DREAM。简单名称的值是指向常量池的一个索引

7.3 类型索引

描述符:描述字段的数据类型。根据描述符规则,基本数据类 型(byte、char、double、float、int、long、short、boolean)以及代表无返回值的void类型都用一个大写字符来表示,而对象类型则用字符L加对象的全限定名来表示。该索引指向常量池
如下所示:

7.4 属性集合

  1. 包含属性数量、属性列表两部分,表示在该字段中添加一些扩展属性。
  2. 它属于表类型
  3. 它是非必须的。

8 方法表集合

方法表的结构如同字段表一样,依次包括访问标志(access_flags)、名称索引(name_index)、描述符索引(descriptor_index)、属性表集合(attributes)。如下所示

8.1 访问标志

如下图所示:

8.2 简名索引

规范跟字段的简名索引一样,例如main

8.3 描述符索引

指方法的返回类型
定义跟字段描述符一样

8.4 属性表集合

属性表集合也是包含属性数量和属性列表。

8.5 关于方法体代码的存储

方法里面的代码去哪里了?
方法里的Java代码,经过Javac编译器编译成字节码指令之 后,存放在方法属性表集合中一个名为“Code”的属性里面,属性表作为Class文件格式中最具扩展性的一种数据项目

9 属性表集合

属性表集合是什么?

  1. 由多个属性组成
  2. 属性的数据类型为表
  3. 它是一种扩展空间,Class文件、字段表、方法表都可以携带自己的属性表集合,以描述某些场景专有的信息

属性的结构分为三部分:

名称 内存分配 存储内容 其他 英文表示
属性名称索引 2字节 指向常量池的一个索引 所有属性都有结构 attribute_name_index
属性长度 4字节 属性值占用的字节数 所有属性都有该结构 attribute_length
属性值 保存除了属性名称索引和属性长度外,其他组成部分,结构自定义 info

9.1 Code属性

Code属性:保存方法体代码编译后的字节码内容
以下内容比较重要

Code属性是Class文件中最重要的一个属性,如果把一个Java程序中的信息分为代码(Code,方法体里面的Java代码)和元数据(Metadata,包括类、字段、方法定义及其他信息)两部分,那么在整 个Class文件里,Code属性用于描述代码,所有的其他数据项目都用于描述元数据

名称 代表意义 类型 内存分配
attribute_name_index 属性名称索引,指向常量池,该常量固定值为“Code” 无符号数 2字节
attribute_length 参考上面属性结构说明 无符号数 4字节
max_stack 操作数栈深度最大值,即该栈空间允许分配的最大字节数,例如该栈最多可存32个字节 无符号数 2字节
max_locals 局部变量表所需的存储空间,单位是变量槽(Slot),变量槽是虚拟机为局部变量分配内存所使用的最小单位 无符号数 2字节
code_length 字节码长度,理论上字节码最大可以为2^32 ,实际上最大只有2^16-1= 65535。即最大可容纳65535个字节码指令 无符号数 4字节
code 存储字节码指令的一系列字节流,编译器通过指令编码找到对应的指令,由指令来判断是否需要操作数以及如何解析操作数 无符号数 code_length的值
exception_length 异常表长度 无符号数 2字节
exception_table 异常表 exception_length的值

关于变量槽:
对于byte、char、float、int、short、boolean和 returnAddress等长度不超过32位的数据类型,每个局部变量占用1个变量槽,而double和long这两种64位的数据类型则需要2个变量槽来存放。

9.2 Exceptions属性

Exceptions属性的作用是列举出方法中可能抛出的受查异常,即方法描述时在throws关键字后面列举的异常
结构分析:略

9.3 LineNumberTable属性

用于描述Java源码行号与字节码行号(字节码的偏移量)之间的对应关系。
作用有两点:

  1. 当抛出异常时,堆栈将会显示出错的行号
  2. 并且在调试程序的时候,可以按照源码行来设置断点

结构分析:略

9.4 LocalVariableTable

LocalVariableTable属性用于描述栈帧中局部变量表的变量与Java源码中定义的变量之间的关系。
作用:IDEA编辑中调用方法时会自动补充参数名称;debug时根据参数名称获取对应的值

如果没有生成这项属性,最大的影响就是当其他人引用这个方法时,所有的参数名称都将会丢失,譬如IDE将会使用诸如arg0、arg1之类的占位符代替原有的参数名,这对程序运行没有影响,但是会对代码编写带来较大不便,而且在调试期间无法根据参数名称从上下文中获得参数值

9.5 LocalVariableTypeTable

跟泛型有关,当泛型的参数化类型被擦除后,使用字段的特征签名来完成泛型的描述

9.6 SourceFile及SourceDebugExtension属性

  1. SourceFile:记录生成这个Class文件的源码文件名称
  2. SourceDebugExtension:JDK5新增的属性,用于存储额外的代码调试信息。

9.7 ConstantValue属性

作用是通知虚拟机自动为静态变量赋值

9.8 InnerClasses属性

记录内部类与宿主类之间的关联。

9.9 所有29个属性概览

10 字节码文件实例分析

javap:用于分析Class文件字节码的工具,在JDK的bin目录中。
javap -verbose 输出字节码的内容。

测试的java代码

package com.minnesota.practice.test;

public class ByteCodeTest {
    private static final String DREAM = "byte dancing";
    public static void main(String[] args) {
        int a = 1;
        int b = 2;
        int c = a+b;
    }
}

ByteCodeTest.class 内容浏览:

javap -verbose ByteCodeTest.class 解析后

javap -verbose ByteCodeTest.class

输出结果:
Classfile /路径脱敏/ByteCodeTest.class
  Last modified 2022-10-25; size 396 bytes
  MD5 checksum be72a2ed3bf8578da63968ce35880d3d
  Compiled from "ByteCodeTest.java"
public class com.minnesota.practice.test.ByteCodeTest
  minor version: 0
  major version: 52
  flags: ACC_PUBLIC, ACC_SUPER
Constant pool:
   #1 = Methodref          #3.#16         // java/lang/Object."<init>":()V
   #2 = Class              #17            // com/minnesota/practice/test/ByteCodeTest
   #3 = Class              #18            // java/lang/Object
   #4 = Utf8               DREAM
   #5 = Utf8               Ljava/lang/String;
   #6 = Utf8               ConstantValue
   #7 = String             #19            // byte dancing
   #8 = Utf8               <init>
   #9 = Utf8               ()V
  #10 = Utf8               Code
  #11 = Utf8               LineNumberTable
  #12 = Utf8               main
  #13 = Utf8               ([Ljava/lang/String;)V
  #14 = Utf8               SourceFile
  #15 = Utf8               ByteCodeTest.java
  #16 = NameAndType        #8:#9          // "<init>":()V
  #17 = Utf8               com/minnesota/practice/test/ByteCodeTest
  #18 = Utf8               java/lang/Object
  #19 = Utf8               byte dancing
{
  public com.minnesota.practice.test.ByteCodeTest();
    descriptor: ()V
    flags: ACC_PUBLIC
    Code:
      stack=1, locals=1, args_size=1
         0: aload_0
         1: invokespecial #1                  // Method java/lang/Object."<init>":()V
         4: return
      LineNumberTable:
        line 3: 0

  public static void main(java.lang.String[]);
    descriptor: ([Ljava/lang/String;)V
    flags: ACC_PUBLIC, ACC_STATIC
    Code:
      stack=2, locals=4, args_size=1
         0: iconst_1
         1: istore_1
         2: iconst_2
         3: istore_2
         4: iload_1
         5: iload_2
         6: iadd
         7: istore_3
         8: return
      LineNumberTable:
        line 6: 0
        line 7: 2
        line 8: 4
        line 9: 8
}
SourceFile: "ByteCodeTest.java"

详细的字节码文件内容分析,待续

posted @ 2022-10-25 20:35  拿了桔子跑-范德依彪  阅读(197)  评论(0编辑  收藏  举报