JVM内存分配和回收
本文内容来自《Java编程思想(第四版)》第二章《一切都是对象》和第五章《初始化与清理》。作为一个使用了好几年的Javaer,再次看编程思想的前面章节(不要问我为什么用再,尽管我第一遍看的啥,一点都不记得了。)
-----------------正文分割线---------------------
一个程序需要在计算机中运行,其本质是CPU操作内存中[1]的数据,进行某些运算的过程。所以这个问题是,计算机是如何操作这些数据的。
要解答这个问题,必须知道1.这些数据指的是什么?2.这些数据是如何存储在内存中的?
- 这些数据指的是程序在算出期望结果过程中,所需要的一些信息,包括数据本身(可能是文本,图像等,但这些都是毫无例外的用二进制形式存储的),以及计算过程中产生的中间值,包括一些内存地址,空白的信息(占坑用)等,总之他们都是有结构的被存储在内存中的二进制。[2]
- 这是个大问题,要分步来解答。
a) 数据可以存在哪里?
l 寄存器。存在这里的读取和写入速度都是最快的,因为寄存器是CPU的一部分,而CPU是干活的全部力量,所以CPU和寄存器的交互速度非常快,比内存快上百来倍(未考证)。至于为什么寄存器更快呢?因为寄存器用的是SRAM,而内存是DRAM,SRAM贵多了。至于为什么SRAM比DRAM快,这个我也不知道(喂,在这么下去,要跑题了)。
l 堆栈:堆栈是存在内存的。用的是栈的数据结构,它快的原因是栈的空间分配速度很快,只需要将指针上移下移就行了。(这种上下其手的事情慢了怎么行。)
l 堆:堆也是放在内存的,而且只比堆栈少一个字!不过它的速度慢多了,这是因为它是堆的数据结构,堆天生就比栈慢。但是堆栈太大了效率就吃不消,你去试试对乐山大佛·上上下下啊!而堆就不一样了,能存的东西就多多了。
l 其他:包括常量堆,流、持久化对象(这个是存在磁盘和网络上的)。
b) 然后呢?(如何操作存在内存的数据)
对内存中数据的操作,汇编是直接操作的,因此你可以在组成原理中看到,内存寻址是一块很重要的内容。C/C++是采用“指针”来间接操作的,它要负责内存的分配和回收,例如malloc就是要内存的节奏。
在Java中,一切都是对象。对象有可能很庞大也可能很小。Java将对象的引用存储在栈上,这样可以快速找到定位,将实际的对象存储在堆中。引用的本质是内存地址,它直接指向堆里相应的对象。所以你在Java中输出this的时候,其实输出的是Java对象的内存地址。
前面说了,堆的操作比较慢。但是实际上,Java的堆并不慢,根据编程之美的说法,Java堆的效率可以媲美某些语言(我也不知道某些是哪些)的栈。这主要得益于JVM良好的垃圾回收机制。
c) JVM垃圾回收机制
程序在运行过程中,需要不断的申请新的内存空间,然后释放掉不用的对象。程序删除不用的内容后,原来这些内容占着的坑(内存空间)就会空出来。如此便会造成大量的内存碎片存在。内存碎片会降低内存使用率,并导致一些大内存对象的分配显得困难。整合这些内存碎片,是非常消耗资源的行为(但是又不得不整合)。JVM的内存回收机制(垃圾回收机制)干的就是这个活。
那么,JVM是如何进行垃圾回收的呢?
简言之,就是根据某些策略,找到那些不用的对象,并将它们释放掉。当然如果能顺便解决内存碎片就更好了,么么哒。
d) 如何找到失活对象?(根据什么策略呢)
有个理论上非常简单的方式就是,如果一个对象被引用了,那么给它的计数增加1,对象被释放掉了,就减去1,那么当一个对象的引用是0的时候,他就毫不留情的被垃圾回收机制回收了。这个方式叫做“引用计数”。但是这个方式有个致命的问题:当两个对象相互引用的时候,计数就永远不为0,即便这些对象是需要被释放掉的。
所以,JVM就不用这个方式啦。
JVM的做法是:遍历栈里的所有引用,有引用的对象便是活的对象,没引用的对象,就是被当做孤魂野鬼来处理。为了解决内存碎片的问题,JVM使用了一种叫做“停止-复制(stop-and-copy)”的做法,即暂停当前程序,然后将活的对象复制到另一片内存区域;如此,既解决了内存碎片(新复制的对象在内存上是连续的),有解决了垃圾回收(没有引用的对象就被抛弃了)。但是这样子,效率上并不太高,另外,还需要一大片内存来做备胎。另外,程序稳定运行后,内存碎片可能并不多。
这时候,JVM的另一个套机制,叫做标记-清扫(mark-and-sweep)的方式。这种方式也是从栈出发,遍历所有引用,为有引用的对象标记存活标记;标记之后,再开始清扫,即清理没被标记的对象。这时候得到的结果,其内存是不连续的。
JVM会监视内存使用状态,在程序稳定的时候,启动标记-清扫方式,当堆碎片过多的时候,启动停止-复制方式。JVM管这个过程叫做自适应的垃圾回收机制。
在上面所述的过程中,内存是以块为单位进行分配的。较大的对象会占据一整个块。每个块都有一个参数叫做代数(generation count),标记其是否存活。对于大型对象,在停止-复制过程中,也不会被再复制一遍,只是代数增加。(这个是为了减少复制的内容,从而减少内存占用。)