揭秘Kafka与Pulsar在JVM上的高性能之谜_pulsar 使用 jdk gc-CSDN博客

本文链接：https://blog.csdn.net/lichunericli/article/details/144795111

传统的数据库系统，如Oracle、DB2、SQL Server、MySQL和Postgres，主要在1980年代至1990年代初期问世。而Java语言直到1995年才被推出，并在21世纪初逐渐成熟。数据库技术中的关键特性，如内存映射、直接IO、非阻塞IO、Sendfile和堆外内存管理等，虽然部分技术在2005年之前已有，但它们的确是随着时间的推进而不断完善。数据库的开发涉及多个关键领域，包括设计支持高效查询的磁盘页和B树结构、处理确保数据一致性的重做日志和撤销日志、网络IO的管控、内存管理，以及查询语句的解析、执行和优化。这些技术的发展历程清晰地展示了数据库系统的复杂性及其对底层技术的依赖是逐步进化的。

Kafka和Pulsar等消息队列系统在JVM上表现出色，而传统数据库在JVM上性能不佳的原因可以从以下几个方面进行梳理和总结：

Kafka和Pulsar在JVM上性能优异的原因：

网络转发与GC影响：
- Kafka和Pulsar在JVM上执行网络转发时，主要受GC影响的是“元数据”，而实际发送的数据存储在直接内存（direct memory）中，不在JVM堆上。这意味着大部分数据不受GC影响，从而提高了性能。
- 元数据与实际数据的比例非常高（如1:5000或更高），因此GC的影响相对较小。
零拷贝技术：
- Kafka利用了零拷贝技术（如sendfile），可以直接从硬盘发送数据到网络socket，无需经过用户态。这种方式极大地减少了数据拷贝和上下文切换的开销。
直接内存使用：
- 数据存储在直接内存中，即使数据需要在JVM堆中处理，也可以通过JNI或JavaCritical等技术提供高性能的网络操作。
高性能网络API：
- Netty等高性能网络库的使用，为Kafka和Pulsar提供了优化的网络处理能力，无需从头实现性能优化。
协议设计：
- Kafka的协议设计将数据面流量尽可能offload给操作系统内核处理，Java代码主要处理控制面逻辑，因此JVM的堆外内存使用也较少。