JVM 的内存结构
内存是非常重要的系统资源,是硬盘和 CPU 的中间仓库及桥梁,承载着操作系统和应用程序的实时运行。JVM 内存布局规定了 Java 在运行过程中内存申请、分配、管理的策略,保证了 JVM 的高效稳定运行。不同的 JVM 对于内存的划分方式和管理机制存在着部分差异。
JVM 内存结构
由于跨平台的设计,java 的指令都是根据栈来设计的,不同平台 CPU 架构不同,所以不能设计为基于寄存器的。
Java 程序的具体执行过程:
Java 源代码文件经过编译器编译后生成字节码文件,然后交给 JVM 的类加载器,加载完毕后,交给执行引擎执行。在整个执行的过程中,JVM 会用一块空间来存储程序执行期间需要用到的数据,这块空间一般被称为运行时数据区,也就是常说的 JVM 内存。
所以,当我们在谈 JVM 内存区域划分的时候,其实,值的就是这块空间——运行时数据区。其中,运行时数据区可以分为以下几个部分:
注意,JVM内存结构(内存布局) 和 JMM(Java内存模型)是两个不同的概念。
运行时数据区
Java 虚拟机在执行 Java 程序的过程中会把它管理的内存划分成若干个不同的数据区域。JDK 1.8 和之前的版本略有不同,这里,我们以 JDK 1.7 和 JDK 1.8 这两个版本为例介绍
-
JDK 1.7
-
JDK 1.8
线程私有的:
-
程序计数器
-
虚拟机栈
-
本地方法栈
线程共享的:
-
堆
-
方法区
-
直接内存 (非运行时数据区的一部分)
程序计数器
JVM 中的程序计数寄存器(Program Counter Register)是对物理程序计数寄存器的一种抽象模拟。程序计数器是一块较小的内存空间,是运行速度最快的存储区域,可以看作是当前线程所执行的字节码的行号指示器。
字节码解释器会在工作的时候,通过改变这个计数器的值,来选取下一条需要执行的字节码指令,像分支、循环、跳转、异常处理、线程恢复等功能,都需要依赖这个计数器来完成。
在 JVM 中,多线程是通过线程轮流切换来获得 CPU 执行时间的,因此,在任一具体时刻,一个 CPU 的内核只会执行一条线程中的指令,因此,为了线程切换后能恢复到正确的执行位置,每个线程都需要有一个独立的程序计数器,并且不能互相干扰,否则就会影响到程序的正常执行次序。即程序计数器是线程私有的。
《Java 虚拟机规范》中规定:
-
如果线程执行的是 Java 方法,则程序计数器中记录的是当前 JVM 字节码指令地址;
-
如果线程执行的是本地方法(native method),则程序计数器中记录的值是未指定值(undefined)。
为什么本地方法在程序计数器中的值是 undefined 的?因为本地方法大多是通过 C/C++ 实现的,并未编译成需要执行的字节码指令。
由于程序计数器中存储的数据所占的空间,不会随程序的执行而发生大小上的改变,因此,程序计数器是不会发生内存溢出现象(OutOfMemory)。
Java 虚拟机栈
Java 中的每个线程在创建的时候,都会创建一个 Java 虚拟机栈(后文简称“栈”),栈是线程私有的,生命周期和线程一致,随着线程的创建而创建,随着线程的死亡而死亡。Java 虚拟机栈的内部结构,如下图所示:
栈的作用
Java 虚拟机栈管理 Java 程序的运行,它保存方法的局部变量、部分结果,并参与方法的调用和返回。
栈的特点
-
栈是一种快速有效的分配存储方式,访问速度仅次于程序计数器;
-
JVM 直接对虚拟机栈的操作只有两个:每个方法执行,伴随着入栈(进栈/压栈),方法执行结束出栈;
-
栈不存在垃圾回收问题。
Java 虚拟机规范允许 Java 虚拟机栈的大小是动态的或者是固定不变的,栈中可能出现的异常:
-
如果采用固定大小的 Java 虚拟机栈,那每个线程的 Java 虚拟机栈容量可以在线程创建的时候独立选定。如果线程请求分配的栈容量,超过 Java 虚拟机栈允许的最大容量,Java 虚拟机将会抛出一个 StackOverflowError 异常;
-
如果 Java 虚拟机栈可以动态扩展,并且在尝试扩展的时候无法申请到足够的内存,或者在创建新的线程时没有足够的内存去创建对应的虚拟机栈,那 Java 虚拟机将会抛出一个 OutOfMemoryError 异常。
栈帧
栈中的数据都是以栈帧(Stack Frame)的格式存在,每个栈帧中都拥有:局部变量表、操作数栈、动态链接、方法返回地址、执行运行时常量池的引用
除了一些本地方法(native method)调用是通过本地方法栈实现的,其他所有的 Java 方法调用都是通过栈来实现的。当线程执行一个方法时,会创建一个对应的栈帧,并将栈帧压入栈中。当方法执行完毕后,将栈帧从栈中移除。栈遵循后进先出的原则,所以,线程当前执行的方法对应的栈帧必定在 Java 虚拟机栈的顶部。
栈运行原理
JVM 直接对 Java 栈的操作只有两个,对栈帧的压栈和出栈,遵循“先进后出”原则。
在一条活动线程中,一个时间点上,只会有一个活动的栈帧。即只有当前正在执行的方法的栈帧(栈顶栈帧)是有效的,这个栈帧被称为当前栈帧(Current Frame),与当前栈帧对应的方法就是当前方法(Current Method),定义这个方法的类就是当前类(Current Class)。执行引擎运行的所有字节码指令,只针对当前栈帧进行操作。
如果在该方法中调用了其他方法,对应的新的栈帧会被创建出来,放在栈的顶端,称为新的当前栈帧。不同线程中所包含的栈帧是不允许存在相互引用的,即不可能在一个栈帧中引用另外一个线程的栈帧。
如果当前方法调用了其他方法,方法返回之际,当前栈帧会传回此方法的执行结果给前一个栈帧,接着,虚拟机会丢弃当前栈帧,使得前一个栈帧重新成为当前栈帧。
Java 方法有两种返回函数的方式,一种是正常的函数返回,使用 return 指令,另一种是抛出异常,不管用哪种方式,都会导致栈帧被弹出。
栈帧的结构
局部变量表
局部变量表主要用于存储方法参数和定义在方法体内的局部变量,存放了编译器可知的基本数据类型、对象引用(reference)类型数据。对象引用类型,它不同于对象本身,可能是一个指向对象起始地址的引用指针,也可能是指向一个代表对象的句柄,或其他与此对象相关的位置。
Java 种共有八种基本数据类型,分别是:boolean、byte、char、short、int、float、long、double
操作数栈
操作数栈,也可以称为表达式栈(Expression Stack),主要是在方法执行过程中,根据字节码指令,往操作数栈中写入数据或提取数据,即入栈、出栈。例如,比如,执行复制、交换、求和等操作。
主要用于保存计算过程的中间结果,同时,作为计算过程中变量临时的存储空间。
动态链接
每一个栈帧内部都包含一个指向运行时常量池中该栈帧所属方法的引用。包含这个引用的目的就是为了支持当前方法的代码能够实现动态链接(Dynamic Linking)。
在 Java 源文件被编译到字节码文件中时,所有的变量和方法引用都作为符号引用(Symbolic Reference)保存在 Class 文件的常量池中。比如:描述一个方法调用了另外的其他方法时,就是通过常量池中指向方法的符号引用来表示的,那么动态链接的作用就是为了将这些符号引用转换为调用方法的直接引用
当一个方法要调用其他方法,需要将常量池中指向方法的符号引用,转化为其在内存地址中的直接引用。动态链接的作用就是为了将符号引用转换为调用方法的直接引用,这个过程也被称为动态连接。
方法返回地址
方法返回地址用来存放调用该方法的 PC 寄存器的值。一个方法的结束,有两种方式:
-
正常执行完成
-
出现未处理的异常,非正常退出
无论通过哪种方式退出,在方法退出后都返回到该方法被调用的位置。方法正常退出时,调用者的 PC 计数器的值作为返回地址,即调用该方法的指令的下一条指令的地址。而通过异常退出的,返回地址是要通过异常表来确定的,栈帧中一般不会保存这部分信息。
本地方法栈(Native Method Stack)
Java 虚拟机栈用于管理 Java 方法的调用,而本地方法栈(Native Method Stack)用于管理本地方法的调用。
为什么要使用本地方法(Native Method)?
与 Java 环境外交互
与操作系统交互:JVM 支持 Java 语言本身和运行时库,但是有时仍需要依赖一些底层系统的支持。
本地方法栈,也是线程私有的,允许线程固定或者可动态扩展的内存大小:
-
如果线程请求分配的栈容量超过本地方法栈允许的最大容量,Java 虚拟机将会抛出一个 StackOverflowError 异常;
-
如果本地方法栈可以动态扩展,并且在尝试扩展的时候无法申请到足够的内存,或者在创建新的线程时没有足够的内存去创建对应的本地方法栈,那么 Java 虚拟机将会抛出一个 OutofMemoryError 异常。
堆内存
堆是运行时数据区域,所有类实例和数组的内存都从这里分配。所有的线程共享堆内存。堆是在虚拟机启动时创建的,堆内存中的对象会由垃圾收集器自动自动回收。
以前,Java 中“几乎”所有的对象都会在堆中分配,但随着 JIT(Just-In-Time)编译器的发展和逃逸技术的逐渐成熟,所有的对象都分配到堆上渐渐变得不那么“绝对”了。从 JDK 7 开始,Java 虚拟机已经默认开启逃逸分析了,意味着如果某些方法中的对象引用没有被返回或者未被外面使用(也就是未逃逸出去),那么对象可以直接在栈上分配内存。
栈是运行时的单位,而堆是存储的单位。
栈解决程序的运行问题,即程序如何执行,或者说如何处理数据。堆解决的是数据存储的问题,即数据怎么放、放在哪。
JIT
常见的编译型语言,如 C++,通常会把代码直接编译成 CPU 所能理解的机器码来运行。
而 Java 为了实现“一次编译,处处运行”的特性,把编译的过程分成两部分,首先它会先由 javac 编译成通用的中间形式——字节码,然后再由解释器逐条将字节码解释为机器码来执行。所以在性能上,Java 可能会干不过 C++ 这类编译型语言。
为了优化 Java 的性能 ,JVM 在解释器之外引入了 JIT 编译器:当程序运行时,解释器首先发挥作用,代码可以直接执行。
随着时间推移,即时编译器逐渐发挥作用,把越来越多的代码编译优化成本地代码,来获取更高的执行效率。解释器这时可以作为编译运行的降级手段,在一些不可靠的编译优化出现问题时,再切换回解释执行,保证程序可以正常运行。
逃逸分析
逃逸分析(Escape Analysis)是目前 Java 虚拟机中比较前沿的优化技术。这是一种可以有效减少 Java 程序中同步负载和内存堆分配压力的跨函数全局数据流分析算法。通过逃逸分析,Java Hotspot 编译器能够分析出一个新的对象的引用的使用范围从而决定是否要将这个对象分配到堆上。
逃逸分析的基本行为就是分析对象动态作用域:
-
当一个对象在方法中被定义后,对象只在方法内部使用,则认为没有发生逃逸。
-
当一个对象在方法中被定义后,它被外部方法所引用,则认为发生逃逸。例如作为调用参数传递到其他地方中,称为方法逃逸。
堆是 Java 垃圾收集器管理的主要区域,因此也被称作 GC 堆(Garbage Collected Heap)。从垃圾回收的角度来看,由于垃圾收集器基本都采用了分代垃圾收集的算法,所以,堆还可以细分为:新生代和老年代。新生代还可以细分为:Eden 空间、From Survivor、To Survivor 空间等。进一步划分的目的是更好地回收内存,或者更快地分配内存。
堆中最容易出现的就是 OutOfMemoryError 错误,分为以下几种表现形式:
-
OutOfMemoryError: GC Overhead Limit Exceeded
:当 JVM 花太多时间执行垃圾回收并且只能回收很少的堆空间时,就会发生该错误。 -
java.lang.OutOfMemoryError: Java heap space
:假如在创建新的对象时, 堆内存中的空间不足以存放新创建的对象, 就会引发该错误。和本机的物理内存无关,和我们配置的虚拟机内存大小有关!
字符串常量池
字符串常量池,位于堆内存中(JDK 1.8),是 JVM 为了提升性能和减少内存消耗,针对字符串(String 类)专门开辟的一块区域,主要目的是为了避免字符串的重复创建。
运行时常量池、方法区、字符串常量池这些都是不随虚拟机实现而改变的逻辑概念,是公共且抽象的,Metaspace、Heap 是与具体某种虚拟机实现相关的物理概念,是私有且具体的。
-- 摘自《深入理解 Java 虚拟机(第 3 版)》
本地内存
直接内存
直接内存是一种特殊的内存缓冲区,并不在 Java 堆或方法区中分配的,而是通过 JNI 的方式在本地内存上分配的。
JDK1.4 中新加入的 NIO(Non-Blocking I/O,也被称为 New I/O),引入了一种基于通道(Channel)与缓存区(Buffer)的 I/O 方式,它可以直接使用 Native 函数库直接分配堆外内存,然后通过一个存储在 Java 堆中的 DirectByteBuffer 对象作为这块内存的引用进行操作。
这样就能在一些场景中显著提高性能,因为避免了在 Java 堆和 Native 堆之间来回复制数据。
直接内存并不是虚拟机运行时数据区的一部分,也不是虚拟机规范中定义的内存区域,但是这部分内存也被频繁地使用,而且也可能导致 OutOfMemoryError 错误出现。
元空间
当虚拟机要使用一个类时,它需要读取并解析 Class 文件获取相关信息,再将信息存入到方法区。方法区会存储已被虚拟机加载的 类信息、字段信息、方法信息、常量、静态变量、即时编译器编译后的代码缓存等数据。
--《Java 虚拟机规范》
-
JDK 1.8 之前,方法区是通过永久代实现的;
-
JDK 1.8 之后,方法区是通过元空间实现的。
第一,永久代放在 Java 虚拟机中,就会受到 Java 虚拟机内存大小的限制,而元空间使用的是本地内存,也就脱离了 Java 虚拟机内存的限制。
第二,JDK 8 的时候,在 HotSpot 中融合了 JRockit 虚拟机,而 JRockit 中并没有永久代的概念,因此新的 HotSpot 就没有必要再开辟一块空间来作为永久代了。
调节元空间大小的参数:
-XX:MetaspaceSize=N //设置 Metaspace 的初始大小
-XX:MaxMetaspaceSize=N //设置 Metaspace 的最大大小
运行时常量池
运行时常量池( Run-Time Constant Pool),是类文件中的 constant_pool 表的按类或按接口的运行时表示形式。它包含多种常量,例如:编译时已知的数值(标量);也包含运行时解析的符号引用,如:方法引用、字段引用等。Java 虚拟机维护每个类型的常量池。
字面量是源代码中的固定值的表示法,即通过字面我们就能知道其值的含义。字面量包括整数、浮点数和字符串字面量。
常见的符号引用包括:类符号引用、字段符号引用、方法符号引用、接口方法符号。
运行时常量池的功能类似于传统编程语言的符号表,尽管它包含了比典型符号表更广泛的数据。Java 虚拟机指令不依赖于类、接口、类实例或数组的运行时布局。相反,指令会引用 constant_pool 表中的符号信息。
既然运行时常量池是方法区的一部分,自然受到方法区内存的限制,当常量池无法再申请到内存时会抛出 OutOfMemoryError 错误。
参考: