ES物理存储逻辑

最新推荐文章于 2024-10-28 15:40:27 发布

原创最新推荐文章于 2024-10-28 15:40:27 发布 · 519 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#elasticsearch #搜索引擎 #大数据

本文详细解读了Elasticsearch的物理存储逻辑，重点介绍了其基于倒排表的结构，如何通过字典树实现快速查找，并讨论了避免内存负担的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

昨天面试时被问到了ES的物理存储逻辑, 虽然知道基本结构为倒排表的物理结构,但是更详细的就不清楚,今天网上找了资料详细了解下, 引用自知乎大佬(https://zhuanlan.zhihu.com/p/413984787)

es基本结构

基本结构是倒排表:
通过将将文章分词,然后以分词结果作为查询索引,可以快速通过短语查询获得文档

比如文档A: “我爱中国” ,分词后为[我, 爱, 中国]

则es的倒排索引就变成了
[
“我” ->A
“爱” ->A
“中国” ->A
]
其中分词后的结果又被称为term

如何快速查找term值呢

一开始没有思考这个问题, 当被问到这个问题是, 第一反应是Hash方法, 毕竟最快,可以做到O(1)的复杂度,但是仔细思考下就发现, 如果通过Hash值的话可能需要大量加载数据进入内存,这显然是不合理的

后来找到了答案,通过一种字典树的方式:
引用大佬原话:

这棵树不会包含所有的 term，它包含的是 term 的一些前缀（这也是字典树的使用场景，公共前缀）。通过 term index 可以快速地定位到 term dictionary 的某个 offset，然后从这个位置再往后顺序查找

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

程序猿暴打攻城狮

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

ES 的存储原理

Sword52888的博客

12-23

9940

es 剖析

Elasticsearch实战系列(二)--逻辑设计和物理设计

吴小豪的博客

07-04

505

一 ES的逻辑设计什么是逻辑设计？搜索应用应该注意的 ES的逻辑的设计是什么？文档、类型、索引用于索引和搜索的基本单位是文档。文档以类型来区分，类型包含若干文档。一个或多个类型存在于同一索引中文档相当于行数据、类型相当于表、索引相当于数据库如何确定ES中的某篇文档？索引-类型-ID,其中id是一个字符串，并没有限制。什么是文档？ ES中索引和搜索...

参与评论您还未登录，请先登录后发表或查看评论

ES（ElaticSearch）详解（含工作原理、基本知识、常见问题和优化方法）

青灯文案的博客

10-28

1万+

本文对 ElaticSearch 的工作原理、基本知识、常见问题和优化方法做了详细的解释

说说 Elasticsearch 的物理设计

读万卷书，行万里路

02-29

854

一个拥有 3 个节点的 Elasticsearch 集群，默认情况下，每个索引由 5 个主要分片组成，而每个主要分片又有一个副本，所以一共加起来是 10 个分片。请看图 1： Elasticsearch 通过副本分片可以提高服务可靠性与搜索性能。另外，分片也是 Elastic search 将数据从一个节点迁移到另一个节点的最小单位。 1 创建集群一个节点是一个 Elasticsearch 实...

【Elasticsearch】逻辑设计和物理设计

好学若饥，谦卑若愚

02-14

651

前言内容小结

elasticsearch存储、查询机制（学习中......）

qq_27349413的博客

12-01

994

elasticsearch存储、查询机制文章目录elasticsearch存储、查询机制一、Elasticsearch的节点类型二、分片和副本（Shard）三、Elasticsearch工作流程1、Elasticsearch写入原理总结一、Elasticsearch的节点类型在Elasticsearch主要分成两类节点，一类是Master，一类是DataNode。 1、Master节点 1.1 master节点具备主节点的选举权，有资格成为主节点，主节点控制整个集群的元数据(metadat

【Elasticsearch】原理-Elasticsearch数据存储结构与写入流程

wudingmei1023

01-08

1万+

1 前言由于Elasticsearch使用Lucene来处理shard级别的索引和查询，因此数据目录中的文件由Elasticsearch和Lucene编写。 Lucene负责编写和维护Lucene索引文件，而Elasticsearch在Lucene之上编写与功能相关的元数据，例如字段映射，索引设置和其他集群元数据，用户和支持功能由Elasticsearch提供。 2 ES数据 2.1 Nod...

es的内部数据存储逻辑,读取逻辑

Will_1130的博客

07-19

412

由于Elasticsearch的内部机制复杂，具体细节涉及到很多优化技术，例如：Lucene的倒排索引、段合并、缓存机制等。: 为了处理大量数据，Elasticsearch会将一个索引分成多个部分，每个部分就是一个分片。具体的读取操作涉及到分片寻址、搜索和返回结果，这些操作都是分布式和近实时的。: 一个内部的日志文件，用于保存尚未被索引的或尚未被确认的数据变更。: 用于批量写入的内存缓冲区，它会在合适的时候刷新到磁盘。节点根据请求的信息定位到包含所需数据的分片。如果需要，节点会从主分片同步数据到副本分片。

ES 底层原理

much efforts, much luck

04-03

5134

一、分布式节点 1、client 客户端节点（协调节点）当主节点和数据节点配置都设置为false的时候，该节点只能处理路由请求，处理搜索，分发索引操作等，从本质上来说该客户节点表现为智能负载平衡器。独立的客户端节点在一个比较大的集群中是非常有用的，协调主节点和数据节点，客户端节点加入集群可以得到集群的状态，根据集群的状态可以直接路由请求。大多数情况下不需要专用的协调节点，协调节点的功能可以由主节点或数据节点来完成，中小型集群中，专门的协调节点的并没有专用的数据节点必要。主要功能：负责任务分发和结果汇聚

ES索引存储原理

guoyuguang0的专栏

08-06

3万+

ES索引存储原理不变性写到磁盘的倒序索引是不变的：自从写到磁盘就再也不变。这会有很多好处：不需要添加锁。不存在写操作，因此不存在多线程更改数据。提高读性能。一旦索引被内核的文件系统做了Cache，绝大多数的读操作会直接从内存而不需要经过磁盘。提升其他缓存（例如fiter cache）的性能。其他的缓存在该索引的生命周期内保持有效，减少磁盘I/O和计算消耗。当然，索引

ES--存储原理及读写过程

qq_46893497的博客

01-10

7316

存储原理及读写过程1、ES节点架构2、插入、更新或者删除流程3、查询4、写实现5、删除和更新实现 1、ES节点架构分布式主从架构 Master Node：主节点负责所有管理类的操作所有索引库的创建、删除、修改、分片的分配维护和更新整个ES集群的状态也负责存储数据 Data Node：从节点负责存储数据，保存分片中的数据，可以横向扩展 Master会将索引库的分片相对均衡的分布在每台机器上 Coordinator Node：中心调度节点谁接受客户端的读写请求，这台节点就作为中心

ES内存那点事

很多时候，你缺少的不是知识而是热情

01-13

1万+

“该给ES分配多少内存？” “JVM参数如何优化?“ “为何我的Heap占用这么高？” “为何经常有某个field的数据量超出内存限制的异常？“ “为何感觉上没多少数据，也会经常Out Of Memory？” 以上问题，显然没有一个统一的数学公式能够给出答案。和数据库类似，ES对于内存的消耗，和很多因素相关，诸如数据总量、mapping设置、查询方式、查询频度等等。默认的设置虽开

整理：ES索引存储原理

zhanghongzheng3213的专栏

05-25

1046

科普文：深入理解ElasticSearch体系结构

为无为，事无事，味无味。

07-30

4438

es自带如下的分词器StandardSimpleWhitespaceStopKeywordPatternLanguage默认分词器其组成如下，特性为：按词切分，支持多语言小写处理其组成如下，特性为：按照非字母切分小写处理其组成如下，特性为：按照空格切分Stop Word指语气助词等修饰性的词语，比如the、an、的、这等等其组成如图，特性为：相比Simple Analyzer多了stop Word处理。

ElasticSearch学习笔记

qq_45541846的博客

05-22

2433

1、Lucene简介 1.1、Lucene介绍 Lucene是Apache Jakarta家族中的一个开源项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎，索引引擎和部分文本分析引擎。 Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。在java开发环境里 Lucene是一个成熟的免费开源工具，是目前最为流行的基于java开源全文检索工具包。数据总体分为两种：结构化数据：指具有固定格...

ES基本介绍