ES的倒排索引和正排索引的区别及适用场景？为什么倒排索引适合全文搜索？

本文链接：https://blog.csdn.net/weixin_45762066/article/details/148106993

正排索引解析

1.存储机制

Elasticsearch 的文档存储机制比简单的固定字节分配更复杂，其核心原理如下：

1. 数值类型存储机制

对于 long/float/double 等数值类型：
文档ID=2 → 偏移量 = 2 * sizeof(type)
例如：long 类型（8字节）：
文档0偏移量：0
文档1偏移量：8
文档2偏移量：16 → 直接定位内存地址

2. 变长数据优化策略

字符串类型（keyword）：
1. 字典编码：将字符串映射为整型ID
   "北京" → 0，"上海" →1
2. 文档存储整型ID（4字节）
3. 偏移量计算：文档ID * 4

布尔类型：
使用位图存储（bit-packed）：
文档0 → 0位
文档1 → 1位
每8个文档存储为1字节

3. 压缩机制

动态选择压缩策略：
数值序列 → 差值编码 + 位打包
稀疏数据 → 游程编码（RLE）
重复值 → 字典压缩

实际存储示例（文档ID=2的字段访问）：

字段类型：long（固定8字节）
内存地址 = 列存储基地址 + (2 * 8)
直接读取该地址的8字节数据

字段类型：keyword（字典编码）
1. 读取字典编码值：内存地址 = 基地址 + (2 * 4)
2. 通过字典表解码：0 → "北京"

2.寻址方式

索引的查询过程

索引

Elasticsearch（简称ES）能够快速索引到文档ID，主要得益于其高效的索引机制和底层数据结构。以下是ES的索引过程及其能够拥有这种索引过程的原因：

索引过程
‌文档接收与解析‌：
当一个新文档被发送到ES时，它首先被接收并解析成JSON格式（如果尚未是JSON格式）。
解析后的文档会被分解成字段和值，以便进行后续的索引和存储。

‌倒排索引构建‌：
对于每个可搜索的字段，ES会构建倒排索引。
倒排索引记录了词项（term）到文档的映射关系，即哪些文档包含了特定的词项。
这个过程包括分词（将文本分解成词项）、词项频率统计、位置信息等。

‌存储与排序‌：
索引后的数据会被存储在磁盘上，同时也会在内存中保留一部分以提高搜索速度。
ES还会对索引数据进行排序和压缩，以优化存储和检索性能。

‌分布式索引‌：
在分布式环境中，ES会将索引数据分散存储在多个节点上。
每个节点都包含索引的一部分数据，并可以独立地进行搜索和索引操作。
能有这种索引过程的原因

‌底层数据结构‌：
ES基于Lucene构建，而Lucene是一个高度优化的全文搜索引擎库。
Lucene使用了一系列高效的数据结构和算法来支持快速的索引和搜索操作。

‌内存与磁盘优化‌：
ES充分利用了内存资源，通过缓存机制将热点数据和索引结构存储在内存中。
同时，ES也采用了优化的磁盘存储结构，如使用列式存储、压缩技术等，以减少磁盘I/O操作并提高数据读取速度。

‌并行处理与分布式架构‌：
ES支持并行处理和分布式架构，可以充分利用多核处理器和分布式系统的优势。
这使得ES能够同时处理多个索引和搜索请求，从而提高系统的吞吐量和响应速度。

‌智能路由与负载均衡‌：
ES能够根据数据的分布情况和节点的负载情况，智能地选择最优的索引和搜索路径。
这有助于平衡各个节点的负载，提高系统的整体性能和稳定性。

定位到Stored Fields或Doc Values的过程

‌文档ID的使用‌：
在Elasticsearch中，每个文档都有一个唯一的文档ID。
当执行查询时，Elasticsearch会根据查询条件（如文档ID）在索引中查找对应的文档位置。
对于Stored Fields，Elasticsearch会维护一个文档ID到磁盘位置的映射表，通过这个映射表可以快速定位到存储该文档字段值的磁盘位置。
对于Doc Values，由于其采用列式存储，Elasticsearch会根据文档ID在相应的列中找到对应的字段值。

‌索引结构的支持‌：
Elasticsearch的索引结构包括倒排索引和正排索引。
倒排索引主要用于快速定位包含特定关键词的文档列表。
正排索引（如Doc Values和Stored Fields）则用于根据文档ID快速获取文档的字段值。
找到对应的Stored Fields或Doc Values后如何拿到想要的结果

‌读取数据‌：
一旦定位到Stored Fields或Doc Values中的位置，Elasticsearch就会从磁盘或内存中读取相应的数据。
对于Stored Fields，Elasticsearch会读取整个文档的字段值（如果只需要部分字段，可以在查询时指定）。
对于Doc Values，由于采用列式存储，Elasticsearch只会读取所需的字段列。
‌数据解压缩与转换‌（如适用）：

如果数据在存储时进行了压缩，Elasticsearch会在读取后进行解压缩。
对于Doc Values，由于其设计目标之一就是高效存储和访问，因此解压缩过程通常非常快。
#‌### 返回结果‌：

最后，Elasticsearch将读取并可能解压缩后的数据作为查询结果返回给用户。
用户可以根据返回的结果进行进一步的处理或分析。

区别场景

倒排索引和正排索引是Elasticsearch中两种不同的数据结构，主要区别及适用场景如下：

一、核心区别

数据结构

倒排索引：字典树的方式，方便搜索

词项（term）→ 文档列表（posting list）

"搜索" → [doc1, doc3, doc5]
"引擎" → [doc2, doc5, doc8]

正排索引：文档 → 字段值存储

doc1 → {title: "搜索原理", content: "全文搜索技术..."}

存储内容

倒排索引存储词项的词典（Term Dictionary）和倒排列表（Postings List）
正排索引存储原始文档字段的完整值（Doc Values）

二、适用场景对比

特性	倒排索引	正排索引
核心用途	文本搜索	排序/聚合
查询效率	毫秒级关键词匹配	微秒级字段访问
存储消耗	较高（存储分词和位置信息）	较低（列式存储）
典型操作	match、term 等查询	sort、sum、avg 等聚合
数据更新	需要重建索引	支持实时更新

三、倒排索引适合全文搜索的原因

快速定位能力：通过分词器将文本分解为词元（token），建立词元到文档的映射关系，实现O(1)时间复杂度的词元查找

布尔运算优化：支持AND/OR/NOT逻辑运算

"搜索 AND 引擎" → 对两个posting list求交集

相关性评分：内置TF-IDF/BM25算法，通过统计：
- 词频（TF）：词项在文档中出现的次数
- 逆文档频率（IDF）：词项在整个语料库中的稀有程度
```
相关性得分 = TF * IDF
```
短语搜索：通过存储词项位置信息（position）实现精确短语匹配
```
"机器学习" → 要求连续出现且顺序一致
```