JVM—垃圾收集算法

最新推荐文章于 2025-06-02 19:05:21 发布

原创最新推荐文章于 2025-06-02 19:05:21 发布 · 383 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#jvm

JVM 专栏收录该内容

19 篇文章

订阅专栏

一、概述

垃圾收集机制是Java的招牌能力，极大地提高了开发效率。如今，垃圾收集几乎成为现代语言的标配，即使经过如此长时间的发展，Java的垃圾收集机制仍然在不断的演进中，不同大小的设备、不同特征的应用场景，对垃圾收集提出了新的挑战，这当然也是面试的热点。

关于垃圾回收，需要思考三个问题： 哪些内存需要回收？什么时候回收？如何回收？

1.1什么是垃圾

垃圾是指在运行程序中没有任何指针指向的对象，这个对象就是需要被回收的垃圾。
外文： An object is considered garbage when it can no longer be reached from any pointer in the runningprogram.
如果不及时对内存中的垃圾进行清理，那么，这些垃圾对象所占的内存空间会一直保留到应用程序结束，被保留的空间无法被其他对象使用。甚至可能导致内存溢出。

1.2 为什么需要GC

对于高级语言来说，一个基本认知是如果不进行垃圾回收，内存迟早都会被消耗完，因为不断地分配内存空间而不进行回收，就好像不停地生产生活垃圾而从来不打扫一样。
除了释放没用的对象，垃圾回收也可以清除内存里的记录碎片。碎片整理将所占用的堆内存移到堆的一端，以便JVM 将整理出的内存分配给新的对象。
随着应用程序所应付的业务越来越庞大、复杂，用户越来越多，没有GC就不能保证应用程序的正常进行。而经常造成STW的GC又跟不上实际的需求，所以才会不断地尝试对GC进行优化。

1.3 Java垃圾回收机制

自动内存管理，无需开发人员手动参与内存的分配与回收，这样降低内存泄漏和内存溢出的风险
- 没有垃圾回收器，java也会和cpp一样，各种悬垂指针，野指针，泄露问题让你头疼不已。
自动内存管理机制，将程序员从繁重的内存管理中释放出来，可以更专心地专注于业务开发
对于Java开发人员而言，自动内存管理就像是一个黑匣子，如果过度依赖于 “自动”，那么这将会是一场灾难，最严重的就会弱化Java开发人员在程序出现内存溢出时定位问题和解决问题的能力。
此时，了解JVM的自动内存分配和内存回收原理就显得非常重要，只有在真正了解JVM是如何管理内存后，我们才能够在遇见OutOfMemoryError时，快速地根据错误异常日志定位问题和解决问题。
当需要排查各种内存溢出、内存泄漏问题时，当垃圾收集成为系统达到更高并发量的瓶颈时，我们就必须对这些“自动化”的技术实施必要的监控和调节。
垃圾回收器可以对年轻代回收，也可以对老年代回收，甚至是全堆和方法区的回收。
- 其中，Java堆是垃圾收集器的工作重点。
从次数上讲
- 频繁收集Young区
- 较少收集old区
- 基本不动元空间

二、垃圾标记阶段

在堆里存放着几乎所有的Java对象实例，在GC执行垃圾回收之前，首先需要区分出内存中哪些是存活对象，哪些是已经死亡的对象。只有被标记为己经死亡的对象，GC才会在执行垃圾回收时，释放掉其所占用的内存空间，因此这个过程我们可以称为垃圾标记阶段。这一步就是确定哪些内存需要回收？

那么在JVM中究竟是如何标记一个死亡对象呢？简单来说，当一个对象已经不再被任何的存活对象继续引用时，就可以宣判为已经死亡。

判断对象存活一般有两种方式：引用计数算法和可达性分析算法。

2.1 引用计数算法

引用计数算法（Reference Counting）比较简单，对每个对象保存一个整型的引用计数器属性。用于记录对象被引用的情况。如果当前对象被引用一次，计数器加1；如果没有被释放引用，计数器减1。当计数器为0时，该对象没有被任何引用，也就代表可以回收了。

优点：实现简单，垃圾对象便于辨识；判定效率高，回收没有延迟性。

缺点：

它需要单独的字段存储计数器，这样的做法增加了存储空间的开销。
每次赋值都需要更新计数器，伴随着加法和减法操作，这增加了时间开销。
引用计数器有一个严重的问题，即无法处理循环引用的情况。这是一条致命缺陷，导致在Java的垃圾回收器中没有使用这类算法。

引用计数算法，是很多语言的资源回收选择，例如因人工智能而更加火热的Python，它更是同时支持引用计数和垃圾收集机制。

具体哪种最优是要看场景的，业界有大规模实践中仅保留引用计数机制，以提高吞吐量的尝试。

Java并没有选择引用计数，是因为其存在一个基本的难题，也就是很难处理循环引用关系。

Python 如何解决循环引用？

➢手动解除：很好理解，就是在合适的时机，解除引用关系。
➢使用弱引用weakref，weakref是Python提供的标准库，旨在解决循环引用。

证明Java使用的不是引用计数法

/**
 * @Des :   -XX:+PrintGCDetails
 *          证明：java使用的不是引用计数算法
 */
public class RefCountTest {
    //这个成员属性唯一的作用就是占用一点内存
    private byte[] bigSize = new byte[5 * 1024 * 1024];//5MB

    Object reference = null;

    public static void main(String[] args) {
        RefCountTest obj1 = new RefCountTest();
        RefCountTest obj2 = new RefCountTest();

        obj1.reference = obj2;
        obj2.reference = obj1;

        obj1 = null;
        obj2 = null;
        //显式的执行垃圾回收行为
        //这里发生GC，obj1和obj2能否被回收？
        System.gc();
    }
}

[GC (System.gc()) [PSYoungGen: 14172K->744K(76288K)] 14172K->752K(251392K), 0.0011476 secs] [Times: user=0.01 sys=0.01, real=0.02 secs]

[Full GC (System.gc()) [PSYoungGen: 744K->0K(76288K)] [ParOldGen: 8K->580K(175104K)] 752K->580K(251392K), [Metaspace: 2918K->2918K(1056768K)], 0.0047333 secs] [Times: user=0.02 sys=0.02, real=0.00 secs]

可以很清楚看到PSYoungGen: 14172K->744K(76288K)，虽然obj1和obj2两个对象互相引用，但是JVM还是正常回收了它们，所以可以看出jdk1.8版本的HotspotJVM并没有采用引用技术算法。

2.2 可达性分析算法

除了引用计数法之外，另一种就是可达性分析算法了。该算法的基本思路是：通过一些列被称为“GC Roots”的根对象作为起始节点集，从这些节点开始，根据引用关系向下搜索，搜索过程所走过的路径称为“引用链”，如果某个对象到GC Roots之间没有任何引用链相连（用图论来讲就是从GC Roots到这个对象不可达）时，则证明此对象是不再被使用的。

在这里插入图片描述

GC Roots

虚拟机栈中（栈帧中的本地变量表）引用的对象，比如各个线程被调用的方法堆栈中使用到的
参数、局部变量、临时变量等。
在方法区中类静态属性引用的对象，Java类的引用类型静态变量。
在方法区中常量引用的对象，譬如字符串常量池（String Table）里的引用。
在本地方法栈中JNI（即通常所说的Native方法）引用的对象。
所有被同步锁synchroni zed持有的对象
Java虚拟机内部的引用，如基本数据类型对应的Class对象，一些常驻的异常对象（比如
NullPointExcepiton、 OutOfMemoryError）等，还有系统类加载器；
反映Java虚拟机内部情况的JMXBean、 JVMTI中注册的回调、本地代码缓存等。
除了这些固定的GC Roots集合以外，根据用户所选用的垃圾回收器不同，以及当前回收区域的不同，还有其他对象临时性地加入，共同完成GC Roots集合。例如分代收集、以及局部收集(Partial GC),如果只针对堆中某块区域发起的一次GC，那么此时该区域的对象有可能会被其他区域的对象所引用，这时候应该将这些情况给考虑进去，才能保证可达性分析的正确性。

小技巧：由于Root采用栈方式存放变量和指针，所以如果一个指针，它保存了堆内存里面的对象，但是自己又不存放在堆内存里面，那它就是一个Root

说明

如果要使用可达性分析算法来判断内存是否可回收，那么分析工作必须在一个能保障一致性的快照中进行。这点不满足的话分析结果的准确性就无法保证。
这点也是导致GC进行时必须“StopTheWorld"的一个重要原因。
- 即使是号称（几乎）不会发生停顿的CMS收集器中，枚举根节点时也是必须要停顿的。

三、垃圾清除阶段

当成功区分出内存中存活对象和死亡对象后，GC接下来的任务就是执行垃圾回收，释放掉无用对象所占用的内存空间，以便有足够的可用内存空间为新对象分配内存。
目前在JVM中比较常见的三种垃圾收集算法是标记一清除算法（ Mark一Sweep）、复制算法（Copying）、标记一压缩算法（Mark一Compact），这一步确定了如何回收垃圾对象。

这三种算法都始于分带收集理论。

3.1 分代收集理论

分代收集名为理论，实质是一套符合大多数程序运行实际情况的经验法则，它建立在两个分
代假说之上：

弱分代假说（Weak Generational Hypothesis）：绝大多数对象都是朝生夕灭的。
强分代假说（Strong Generational Hypothesis）：熬过越多次垃圾收集过程的对象就越难以消亡。

这两个分代假说共同奠定了多款常用的垃圾收集器的一致的设计原则： 收集器应该将Java堆划分出不同的区域，然后将回收对象依据其年龄（年龄即对象熬过垃圾收集过程的次数）分配到不同的区域之中存储。

如果一个区域中大多数对象都是朝生夕灭，很快被回收，那么把它们集中放在一起（比如新生代），每次回收时只关注如何保留少量存活而不是去标记那些大量将要被回收的对象，就能以较低代价回收到大量的空间；如果剩下的都是难以消亡的对象，那把它们集中放在一块，虚拟机便可以使用较低的频率来回收这个区域（比如老年代），这就同时兼顾了垃圾收集的时间开销和内存的空间有效利用。

在Java堆划分出不同的区域之后，垃圾收集器才可以每次只回收其中某一个或者某些部分的区域
——因而才有了“Minor GC”“Major GC”“Full GC”这样的回收类型的划分；进而出现了标记一清除算法（ Mark一Sweep）、复制算法（Copying）、标记一压缩算法（Mark一Compact）三种收集算法。

现在具体应用分带收集理论的JVM，一般至少都把堆分成新生代和老年代两块区域。

分带收集存在一个明显的困难，对象之间存在跨代引用。

最简单的办法就是为了去找新生代中存活的对象，不得不在固定GC Roots之外，还要把老年代的所有对象加入，以保证可达性分析的正确性。这样很明显会造成非常大的性能开销。为了解决这个问题，其实分代收集理论还有第三条分代假说：

跨代引用假说（Intergenerational Reference Hypothesis):跨代引用相对于同代引用来说占极少数。

由强分代假说与弱分代假说得出一个新的推论：存在互相引用关系的两个对象，应该倾向同时生存或者同时消亡的。举个例子，如果此时新生代中的对象被老年代对象跨代引用，由于老年代难以消亡，那么该引用会使得该新生代对象同样难以消亡，随着**年龄(熬过的GC次数)**的增长，这个新生代的对象也会变成老年代的对象，此时跨代引用就消除了。

根据这条假说，我们就不应该再为少量的跨代引用而将整个老年代加入GC Roots集当中，也不应该浪费专门的空间去记录每一个对象是否存在及存在哪些跨代引用。而是应该在新生代中定义一个Remembered Set(记忆集)，将老年代分割为若干个小区域，标识出哪块区域有可能存在跨代引用。此后每当发生MinorGC的时候，就去找存在跨代引用的内存区域才加入到GC Roots中。虽然这种方法需要在对象引用关系改变时维护数据的正确性，会响应地在运行时增加一定的开销。但与整个老年代都加入到Minor GC时的开销比起来，这样的开销是值得的。

部分收集(Partial GC)分为以下几种情况：

新生代收集(Minor GC/Young GC)：只进行新生代的垃圾收集
老年代收集(Major GC/Old GC):只对老年代进行垃圾收集。目前只有CMS会有单独收集老年代的行为。
混合收集(Mixed GC):整个新生代以及部分老年代的垃圾收集。目前只有G1有这种行为
整堆收集(Full GC):收集整个Java堆与方法区的垃圾收集。

3.2 标记-清除算法（Mark-Sweep）

标记一清除算法（Mark一Sweep）是一种非常基础和常见的垃圾收集算法，该算法被J . McCarthy等人在1960年提出并并应用于Lisp语言。

执行过程：

当堆中的有效内存空间（available memory）被耗尽的时候，就会停止整个程序（也被称为stop the world），然后进行两项工作，第一项则是标记，第二项则是清除。

标记： Collector从引用根节点开始遍历，标记所有被引用的对象。一般是在对象的Header中记录为可达对象。
清除： Collector对堆内存从头到尾进行线性的遍历，如果发现某个对象在其Header中没有标记为可达对象，则将其回收。

在这里插入图片描述

缺点

➢效率不算高
➢在进行Gc的时候，需要停止整个应用程序，导致用户体验差
➢这种方式清理出来的空闲内存是不连续的，产生内存碎片。需要维护一个空闲列表

特别说明，何为清除？

这里所谓的清除并不是真的置空，而是把需要清除的对象地址保存在空闲的地址列表里。下次有新对象需要加载时，判断垃圾的位置空间是否够，如果够，就存放。

3.3 标记-复制算法

为了解决标记一清除算法在垃圾收集效率方面的缺陷，M.L.Minsky于1963年发表了著名的论文，“ 使用双存储区的Lisp语言垃圾收集器CALISP Garbage Collector Algorithm Using SerialSecondary Storage ）”。M.L. Minsky在该论文中描述的算法被人们称为复制（Copying）算法，它也被M. L.Minsky本人成功地引入到了Lisp语言的一个实现版本中。

核心思想：

将活着的内存空间分为两块，每次只使用其中一块，在垃圾回收时将正在.使用的内存中的存活对象复制到未被使用的内存块中，之后清除正在使用的内存块中的所有对象，交换两个内存的角色，最后完成垃圾回收。

在这里插入图片描述

优点：

没有标记和清除过程，实现简单，运行高效
复制过去以后保证空间的连续性，不会出现“碎片”问题。

缺点：

此算法的缺点也是很明显的，就是需要两倍的内存空间。
对于G1这种分拆成为大量region的GC，复制而不是移动，意味着GC需要维护region之间对象引用关系，不管是内存占用或者时间开销也不小。
特别的 如果系统中的存活对象很多，复制算法不会很理想，复制算法需要复制的存活对象数量并不会太大，或者说非常低才行。

在新生代，对常规应用的垃圾回收，一次通常可以回收708一 99的内存空间。回收性价比很高。所以现在的商业虚拟机都是用这种收集算法回收新生代。

3.4 标记-压缩(标记-整理,Mark-Compact)算法

复制算法的高效性是建立在存活对象少、垃圾对象多的前提下的。这种情况在新生代经常发生，但是在老年代，更常见的情况是大部分对象都是存活对象。如果依然使用复制算法，由于存活对象较多，复制的成本也将很高。因此，基于老年代垃圾回收的特性，需要使用其他的算法。
标记一清除算法的确可以应用在老年代中，但是该算法不仅执行效率低下，而且在执行完内存回收后还会产生内存碎片，所以JVM的设计者需要在此基础之上进行改进。标记一压缩（Mark一Compact）算法由此诞生。
1970年前后，G. L. Steele 、C. J. Chene和D.S. Wise 等研究者发布标记一压缩算法。在许多现代的垃圾收集器中，人们都使用了标记一压缩算法或其改进版本。

执行过程：

第一阶段和标记一清除算法一样，从根节点开始标记所有被引用对象.
第二阶段将所有的存活对象压缩到内存的一端，按顺序排放。
之后，清理边界外所有的空间。

在这里插入图片描述

标记一压缩算法的最终效果等同于标记一清除算法执行完成后，再进行一次内存碎片整理，因此，也可以把它称为标记一清除一压缩（Mark一 Sweep一Compact）算法。

二者的本质差异在于标记一清除算法是一种非移动式的回收算法，标记一压缩算法是移动式的。是否移动回收后的存活对象是一项优缺点并存的风险决策。

由上图可以看到，标记的存活对象将会被整理，按照内存地址依次排列，而未被标记的内存会被清理掉。如此一来，当我们需要给新对象分配内存时，JVM只需要持有一个内存的起始地址即可，这比维护一个空闲列表显然少了许多开销。

优点

消除了标记一清除算法当中，内存区域分散的缺点，我们需要给新对象分配内存时，JVM只需要持有一个内存的起始地址即可。
消除了复制算法当中，内存减半的高额代价。

缺点

从效率上来说，标记一整理算法要低于复制算法和标记—清除算法。
移动对象的同时，如果对象被其他对象引用，则还需要调整引用的地址。移动过程中，需要全程暂停用户应用程序。即： STW

3.5 小结

效率上来说，复制算法是当之无愧的老大，但是却浪费了太多内存。
而为了尽量兼顾上面提到的三个指标，标记一整理算法相对来说更平滑一些，但是效率上不尽如人意，它比复制算法多了一个标记的阶段，比标记一清除算法多了一个整理内存的步骤。

	Mark-Sweep	Mark-Compact	Copying
速度	中等	最慢	最快
空间开销	少(但会堆积碎片)	少(不堆积碎片)	通常需要活对象的2倍大小(不堆积碎片)
移动对象	否	是	是

三、对象的finalization机制

Java语言提供了对象终止（finalization）机制来允许开发人员提供对象被销毁之前的自定义处理逻辑。
当垃圾回收器发现没有引用指向一个对象，即：垃圾回收此对象之前，总会先调用这个对象的finalize（）方法。
finalize（）方法允许在子类中被重写，用于在对象被回收时进行资源释放。通常在这个方法中进行一些资源释放和清理的工作，比如关闭文件、套接字和数据库连接等。
应该交给垃圾回收机制调用。理由包括下面三点：永远不要主动调用某个对象的finalize （）方法
- 在finalize（）时可能会导致对象复活。
- finalize（）方法的执行时间是没有保障的，它完全由Gc线程决定，极端情况下，若不发生GC，则finalize（）方法将没有执行机会。
- 一个糟糕的finalize （）会严重影响GC的性能。
从功能上来说，finalize（）方法与C++ 中的析构函数比较相似，但是Java采用的是基于垃圾回收器的自动内存管理机制，所以finalize（）方法在本质上不同于C++ 中的析构函数。

3.1 对象生存还是死亡？

由于finalize （）方法的存在，虚拟机中的对象一般处于三种可能的状态

如果从所有的根节点都无法访问到某个对象，说明对象己经不再使用了。一般来说，此对象需要被回收。但事实上，也并非是“非死不可”的，这时候它们暂时处于“缓刑”阶段。一个无法触及的对象有可能在某一个条件下“复活”自己，如果这样，那么对它的回收就是不合理的，为此，定义虚拟机中的对象可能的三种状态。如下：

可触及的：从根节点开始，可以到达这个对象。
可复活的：对象的所有引用都被释放，但是对象有可能在finalize（）中复活。
不可触及的：对象的finalize（）被调用，并且没有复活，那么就会进入不可触及状态。不可触及的对象不可能被复活，因为finalize（）只会被调用一一次。

以上3种状态中，是由于finalize（）方法的存在进行的区分。只有在对象不可触及时才可以被回收。 判定是否可以回收具体过程 判定一个对象是否可回收，至少要经历两次标记过程：

① 如果该对象到GC Roots没有引用链，则进行第一次标记。

② 进行筛选，判断此对象是否有必要执行finalize（）方法

如果对象没有重写finalize（）方法，或者finalize （）方法已经被虚拟机调用过，则虚拟机视为“没有必要执行”，该对象被判定为不可触及的。
如果该对象重写了finalize（）方法，且还未执行过，那么该对象会被插入到F一Queue队列中，由一个虚拟机自动创建的、低优先级的Finalizer线程触发其finalize（）方法执行。
finalize（）方法是该对象逃脱死亡的最后机会，稍后Gc会对F一Queue队列中的该对象进行第二次标记。如果objA在finalize（）方法中与引用链上的任何一个对象建立了联系，那么在第二次标记时，该对象会被移出“即将回收”集合。之后，该对象会再次出现没有引用存在的情况。在这个情况下，finalize方法不会被再次调用，该对象会直接变成不可触及的状态，也就是说，一个对象的finalize方法只会被调用一次。

案例

/**
 * @Des :   测试Object类中finalize()方法只能被调用一次，即对象的finalization机制。
 */
public class CanReliveObjTest {
    public static CanReliveObjTest obj;//类变量，属于 GC Root


    //此方法只能被调用一次
    @Override
    protected void finalize() throws Throwable {
        super.finalize();
        System.out.println("调用当前类重写的finalize()方法");
        //当前待回收的对象在finalize()方法中与引用链上的一个对象obj建立了联系
        obj = this;
    }

    public static void main(String[] args) {
        try {
            obj = new CanReliveObjTest();
            // 对象第一次成功拯救自己
            obj = null;
            System.gc();//调用垃圾回收器
            System.out.println("第1次 gc");
            // 因为Finalizer线程优先级很低，暂停2秒，以等待它
            Thread.sleep(2000);
            if (obj == null) {
                System.out.println("obj 已死亡");
            } else {
                System.out.println("obj 还存活");
            }
            
            System.out.println("第2次 gc");
            // 下面这段代码与上面的完全相同，但是这次自救却失败了
            obj = null;
            System.gc();
            // 因为Finalizer线程优先级很低，暂停2秒，以等待它
            Thread.sleep(2000);
            if (obj == null) {
                System.out.println("obj 已死亡");
            } else {
                System.out.println("obj 还存活");
            }
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }
}

运行结果

第1次 gc
调用当前类重写的finalize()方法
obj 还存活
第2次 gc
obj 已死亡