为什么需要 Elasticsearch?

本文介绍了Elasticsearch作为分布式搜索与分析引擎的特点与优势,对比了其与传统数据库在搜索功能上的区别,尤其强调了相关性匹配及数据分析能力,并简要探讨了其内部实现原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  Elasticsearch is the distributed search and analytics engine at the heart of the Elastic Stack.

  简单说,就是一个分布式的搜索与分析引擎。

  用数据库,也可以实现搜索的功能,为什么还需要搜索引擎呢?

  就像 Stackoverflow 的网友说的:

  A relational database can store data and also index it. A search engine can index data but also store it.

  数据库(理论上来讲,ES 也是数据库,这里的数据库,指的是关系型数据库),首先是存储,搜索只是顺便提供的功能,

  而搜索引擎,首先是搜索,但是不把数据存下来就搜不了,所以只好存一存。

  术业有专攻,专攻搜索的搜索引擎,自然会提供更强大的搜索能力。

  1、精确匹配和相关性匹配

  在使用数据库搜索时,我们更多的是基于「精确匹配」的搜索。

  什么是「精确匹配」?

  比如搜订单,根据订单状态,准确搜索。搜「已完成」,就要「精确匹配」「已完成」的订单,搜「待支付」,就要「精确匹配」「待支付」的订单。

  这种「精确匹配」的搜索能力,传统关系型数据库是非常胜任的。

  和「精确匹配」相比,「相关性匹配」更贴近人的思维方式。

  比如我要搜一门讲过「莎士比亚」的课程,我需要在课程的文稿里进行「相关性匹配」,找到对应的文稿,

  你可能觉得一条 sql 语句就可以解决这个问题:

  select * from course where content like "%莎士比亚%"

  然而,这只能算是「模糊查询」,用你要搜索的字符串,去「精确」的「模糊查询」,其实还是「精确匹配」,机械思维。

  那么到底什么是「相关性匹配」,什么才是「人的思维」呢?

  比如我搜「莎士比亚」,我要的肯定不只是精精确确包含「莎士比亚」的文稿,我可能还要搜「莎翁」、「Shakespeare」、「哈姆雷特」、「罗密欧和朱丽叶」、「威尼斯的商人」…

  又比如我输错了,输成「莎士笔亚」,「相关性匹配」可以智能的帮我优化为「莎士比亚」,返回对应的搜索结果。

  这就是搜索引擎的强大之处,它似乎可以理解你的真实意图。

  2、搜索和分析,不只是搜索,还有分析

  "search and analytics engine",ES 不仅是搜索,还有分析。

  原始数据如果只是躺在磁盘里面根本就毫无用处。—— 《Elasticsearch 权威指南》

  躺在磁盘里的数据是没有价值的,而ES则让你存放在里面的数据,拥有了无限的探索力。

  Elasticsearch 真正强大之处在于可以从无规律的数据中找出有意义的信息 —— 从“大数据”到“大信息”。—— 《Elasticsearch 权威指南》

  和 mysql 一样,ES 提供了一些简单的聚合操作,avg、sum、min、max等等。

  当然,实际的业务场景,很多是无法通过这些聚合操作就能分析出想要的数据的,复杂的处理逻辑,还是要通过写业务代码来实现。

  实时计算的一种常见方案,是数据产生后,通过消息队列(比如kafka)推给实时计算平台 storm,计算后,再把数据存到 ES。

  貌似es在这里没有提供什么分析能力,然而只要数据存在于es,这些数据的被探索力就比放在数据库里的强,你随时可以在里面挖掘出商机。

  令我最为震惊的是,他们竟然不看表面数据,而是从无限数据的机会中寻找核心数据。 这正体现了大数据与传统数据之间最大的不同。以前,我们是“有问题找数据”,而在大数据时代,其最核心的特质则是“用数据找机会” —— 《决战大数据》车品觉

  这一切的分析数据的能力,都是建立在快速的查询上的,如果没有快速的查询,分析能力无从谈起。

  最后简单聊聊 ES 的内部原理。

  正如上文讲到的,术业有专攻,既然 ES 是专门做搜索的,内部实现细节自然和主要做存储的数据库不同。

  关系型数据库,把原本非常形象的对象,拍平了,拍成各个字段,存在数据库,查询时,再重新构造出对象;ES则是文档存储,把对象原原本本地放进去,取出时直接取出。

  Mysql基于B+树索引,来实现快速检索,ES则基于倒排索引,对于文档搜索来说,倒排索引在性能和空间上都有更加明显的优势。

  倒排索引很复杂,下次再讲。

<think>嗯,用户问的是“es经验是elasticsearch?”,首先需要确认这里的“es”是否指的是Elasticsearch。通常来说,在技术领域,“ES”确实是Elasticsearch的常见缩写,比如在开发、运维或者数据分析中经常提到。不过,也有可能存在其他含义,比如某个特定领域的术语或者另一个工具的简称,但可能性较低。 接下来,我需要详细解释Elasticsearch是什么。它是基于Lucene的搜索引擎,主要用于全文检索、结构化搜索和分析。支持分布式架构,能够处理大规模数据,适合实时搜索的场景。这里需要提到它的核心功能,比如倒排索引、近实时搜索、高可用性等。 然后,应用场景部分要覆盖常见的用例,比如日志分析(ELK Stack)、电商搜索、企业搜索、安全分析(SIEM)等。每个场景可以简单举例说明,帮助用户理解实际用途。 基本概念方面,要解释索引(类似于数据库)、文档(数据单元)、分片和副本(分布式存储机制)、节点与集群(扩展性和高可用性)。这些是用户在使用Elasticsearch时需要理解的关键术语。 经验积累部分,需要给出学习路径或最佳实践。比如先学习基础概念和REST API,然后掌握数据建模、查询优化、集群管理。还要提到性能调优的技巧,如分片策略、JVM配置、硬件选择。工具链方面,可以介绍Kibana、Logstash、Beats等周边态。 最后,确认用户的问题,确保他们了解ES即Elasticsearch,并鼓励进一步提问。需要保持回答结构清晰,逐步展开,避免使用技术术语过多,同时确保信息准确。</think>好的,我来逐步解释这个问题: 1. **ES的缩写含义确认** "ES"在技术领域通常指 **Elasticsearch**,它是一个基于Lucene构建的**开源分布式搜索引擎**,属于Elastic Stack(ELK Stack)的核心组件。 2. **Elasticsearch的核心特性** - **分布式架构**:支持横向扩展,自动分片数据 - **全文检索**:基于倒排索引实现快速文本搜索 - **近实时(NRT)**:数据写入后约1秒可被检索 - **多数据类型**:支持结构化、非结构化、地理空间数据 - **RESTful API**:通过HTTP接口进行操作 3. **典型应用场景** | 场景类型 | 具体应用 | |---|---| | 日志分析 | ELK Stack(Elasticsearch+Logstash+Kibana)| | 电商搜索 | 商品多维度过滤、自动补全 | | 企业搜索 | 文档内容检索、识库查询 | | 安全分析 | SIEM系统中的威胁检测 | 4. **关键概念解析** - **索引(Index)**:类似数据库中的表 - **文档(Document)**:存储的基本数据单元(JSON格式) - **分片(Shard)**:数据分区单位(主分片+副本分片) - **节点(Node)**:集群中的单个服务器实例 5. **经验积累建议** 1. 从基础开始: - 学习DSL查询语法(如`match`, `term`, `bool`查询) - 掌握Mapping设计与分析器配置 2. 性能优化: - 分片数量规划(建议单个分片大小10-50GB) - JVM堆内存设置(不超过32GB,通常设物理内存50%) 3. 运维管理: - 使用`_cat API`监控集群健康状态 - 通过ILM(Index Lifecycle Management)管理数据命周期 如果具体想了解Elasticsearch的某些技术细节(如分词器原理、分布式一致性机制等),可以进一步提问。ES作为现代搜索技术的代表,其设计思想对理解分布式系统很有帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值