B+树 vs LSM树：为什么大数据场景更青睐 LSM？

最新推荐文章于 2025-08-08 14:04:33 发布

原创最新推荐文章于 2025-08-08 14:04:33 发布 · 418 阅读

CC 4.0 BY-SA版权

文章标签：

在数据库系统的设计中，数据结构的选择决定了读写效率的上限。如果你熟悉传统关系型数据库如 MySQL 或 PostgreSQL（文中提到的“p circle”应为 PostgreSQL），你可能知道它们大多采用 B+树 作为底层的数据组织结构。而像 ClickHouse、Cassandra 等 NoSQL 数据库，则广泛采用了 LSM（Log-Structured Merge）树。

那么，这两种结构到底有何本质区别？又为何在大数据、高写入场景中，LSM树更胜一筹？本文将用通俗易懂的方式，系统解析背后的原理与权衡。

一、传统数据库为何采用 B+树？

1. B+树：为“读”而生的数据结构

MySQL 的默认存储引擎 InnoDB 采用的是 聚簇索引 B+树 结构。其核心特点包括：

有序存储：数据在磁盘上按照主键顺序排列；
树形结构：可以通过多级索引快速定位目标数据；
最适合范围查询与快速定位：查询效率为 O(log n)。

2. 写入的“代价”：随机 IO 成本高

B+树在写入新数据时，需要先找到准确插入位置，然后进行调整和重排。这种操作通常伴随着：

多次磁盘页读取（随机 IO）；
页分裂或合并；
数据页更新。

尽管今天 SSD 普及了，但随机 IO 的效率依然远远不如顺序写入。在大数据量、高并发写入场景下，频繁的随机 IO 成为性能瓶颈。

二、LSM 树：为“写”而生的设计哲学

1. 背景与动因

随着物联网、日志采集、传感器等场景的兴起，每天都需要处理数百万甚至数千万的写入操作。在这样的数据洪流下，B+树显然力不从心。

于是，专为写优化而设计的 LSM 树应运而生。

代表数据库：

Cassandra
ClickHouse
RocksDB
LevelDB
HBase

2. 核心机制：写入先入内存，再批量顺序落盘

LSM 树的工作流程如下：

第一步：写入内存（MemTable）

数据被写入时，首先进入 内存表 MemTable，此表使用类似跳表或红黑树的结构进行 有序存储与排序。

第二步：顺序刷盘（SSTable）

当 MemTable 达到阈值时，它会被刷入磁盘，形成一个不可变的 SSTable（Sorted String Table）文件。

特点：数据已在内存排序，刷盘为顺序写，效率极高。

第三步：多级合并与压缩（Compaction）

随着越来越多的 SSTable 文件生成，为了优化查询性能，系统会定期将多个 SSTable 文件进行 合并（Merge） 和 压缩（Compaction），消除冗余、清理过期数据，形成类似树状的多层结构。

三、写入优先的背后：LSM 树的关键设计点

1. 不可变的 SSTable

一旦 SSTable 文件被写入磁盘，不会再修改。这带来了两个优势：

避免写放大问题；
顺序写入效率极高。

但同时也带来了挑战：如何处理更新与删除？

2. 墓碑机制（Tombstone Marker）

LSM 树通过在最新的 MemTable 或 SSTable 中添加墓碑标记，来表示某个旧数据已被删除或覆盖。例如：

原有 ID=3 的数据存在于 SSTable1；
当更新 ID=3 时，新的数据和墓碑标记一起被写入 SSTable3；
查询时读取最新的版本，并忽略已标记删除的旧数据。

这是一种典型的追加写、延迟清理机制。

四、LSM 树的代价与应对策略

虽然写入性能极强，但 LSM 树也面临一些代价和挑战。

1. 冗余数据 & 查询延迟

多个 SSTable 可能包含同一个 key 的多个版本或墓碑信息，导致：

查询时需合并多个层级；
读取代价上升。

2. 合并压缩的 IO 开销

后台的 Compaction 会产生大量磁盘 IO，是系统的一大压力源。需通过合理参数控制频率和粒度。

五、LSM 树的“树”形结构体现在哪？

LSM 的“树”，不是传统意义上的树形索引，而是其 多层级的数据压缩与合并策略：

       MemTable
          ↓
     Level-0 (多小文件)
          ↓
     Level-1（压缩合并后文件）
          ↓
     ...
     Level-N（更大体量、更少数量）

随着数据写入，数据会逐渐从 Level-0 向更高层级传递，形成一个 金字塔式的层次结构，在某些数据库实现中，也可视作一种树状分层模型。

六、不同 LSM 实现策略对比

类型	特点	代表数据库
基于尺寸合并	吞吐量高，但查询时层级多，合并慢	Cassandra、HBase
基于层级合并	层次清晰，查询快，合并频繁	RocksDB、LevelDB

七、典型优化手段

优化 1：范围索引表（Index Summary）

为了加速查询，系统会在内存中维护每个 SSTable 的范围索引：

每个文件记录其最小 key 和最大 key；
查询时根据 key 范围快速定位是否需要加载该文件，跳过不相关 SSTable。

优化 2：布隆过滤器（Bloom Filter）

如果要查询的数据根本不存在，是否也要逐层扫描？这显然效率低下。

布隆过滤器可用于快速判断 key 是否“可能存在”于某个 SSTable 中：

如果 Bloom Filter 判断为“不存在”，就无需查这个文件；
若判断为“可能存在”，再进一步确认。

优点：极大减少无效 IO；
缺点：存在极低概率的误报。

八、对比总结：B+树 vs LSM 树

维度	B+树	LSM 树
写入性能	一般（随机 IO）	极高（顺序 IO）
读取性能	极快（一次定位）	一般（需合并多层）
结构复杂度	中等	高（需定期 Compaction）
删除/更新	直接操作节点	墓碑标记 + 延迟合并
应用场景	OLTP、事务系统	OLAP、大数据、日志采集
代表产品	MySQL、PostgreSQL	Cassandra、ClickHouse、RocksDB

九、实战建议与调优点

LSM 数据库并非万能，适合大量写入、写多读少的场景；
配置调优建议：
- 控制 MemTable 大小；
- 调整压缩频率；
- 设置合理的 Compaction 策略；
- 开启 Bloom Filter 和范围索引；
对读取延迟敏感的业务，需谨慎使用 LSM 架构；
监控 Compaction 状态，防止后台压缩阻塞主业务写入。