ElasticSearch的使用

java 分享官

已于 2022-05-23 20:59:12 修改

阅读量4.8k

点赞数 5

CC 4.0 BY-SA版权

文章标签： elasticsearch 搜索引擎大数据

于 2022-05-20 20:02:47 首次发布

本文链接：https://blog.csdn.net/aa119101/article/details/124889659

本文是ElasticSearch的入门介绍，讲解了ElasticSearch作为搜索框架的优势，基于Lucene的功能，核心概念如NRT、集群、节点、索引、文档等，并介绍了安装与配置过程，以及批量操作和与开发融合的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文主要介绍 ElasticSearch的使用

如有需要，可以参考

如有帮助，不忘点赞 ❥收藏+关注哦

ELK是一个免费开源的日志分析架构技术栈总称，其中包含三大基础组件，分别是 ElasticSearch、Logstash、Kibana。ELK在实际开发中不仅仅使用于日志分析，它还可以支持其他任何数据搜索、分析和收集的场景，其中日志分析和收集更具有代表性。

既然 ELK 这么有用，那这篇我们就先来认识一下什么是 ElasticSearch吧！

简介

简单来说 ElasticSearch 就是一个搜索框架。对于搜索这个词我们并不陌生，当我们输入关键词后，返回含有该关键词的所有信息结果。

在我们平时用到最多的便是数据库搜索：

SELECT * FROM USE WHERE NAME LIKE %小菜%
复制代码

但是用数据库做搜索存在着许多弊端，例如：

存储问题：当数据量大的时候就必须进行分库分表。
性能问题：当数据量过大时，使用LIKE会对上亿条数据进行逐行扫描，性能受到严重影响。
不能分词：当我们搜索 游戏本电脑 的时候，只会返回完全和关键词一样的数据，如果搜索 游戏电脑，那么是不是就会没有数据返回。

因此基于以上问题，ElasticSearch出现了。它是使用 Java 开发的，基于 Lucene、分布式、通过 Restful 方式进行交互的近实时搜索平台框架。它的优点如下：

分布式的搜索引擎和数据分析引擎
全文检索，结构化检索和数据分析
对海量数据进行近实时的处理

Lucene 介绍

Lucene 是一个功能强大的搜索库，如果我们直接基于 Lucene 开发，那么会非常复杂。而 ElasticSearch 是基于 Lucene 开发的，封装了许多 Lucene 底层功能，提供了简单易用的 RestFul api接口和许多语言的客户端。

ElasticSearch核心概念

NRT（Near Realtime） 近实时

写入数据时，过 1 秒才会被搜索到，因为内部需要分词，引入索引
es 搜索和分析数据都是秒级内出结果

Cluster 集群

包含一个或多个启动着es实例的机器群。通常一台机器起一个es实例。同一网络下，集名一样的多个es实例自动组成集群，自动均衡分片等行为。默认集群名为“elasticsearch”。

Node 节点

每个es实例称为一个节点。节点名自动分配，也可以手动配置。

Index 索引

包含一堆有相似结构的文档数据。索引创建规则：

仅限小写字母
不能包含 \、/、 *、?、"、<、>、|、# 以及空格符等特殊符号
从7.0版本开始不再包含冒号
不能以**-、_或+**开头
不能超过255个字节（注意它是字节，因此多字节字符将计入255个限制）

Document 文档

es中的最小数据单元。一个document就像数据库中的一条记录。通常以json格式显示。多个document存储于一个索引（Index）中。

Field 字段

就像数据库中的列（Columns），定义每个document应该有的字段。

Type 类型

每个索引里都可以有一个或多个type，type是index中的一个逻辑数据分类，一个type下的document，都有相同的field。

注：6.0之前的版本有type（类型）概念，type相当于关系数据库的表，ES官方将在ES9.0版本中彻底删除type。本教程typy都为_doc。

Shard 分片

index数据过大时，将index里面的数据，分为多个shard，分布式的存储在各个服务器上面。可以支持海量数据和高并发，提升性能和吞吐量，充分利用多台机器的cpu。

replica 副本

在分布式环境下，任何一台机器都会随时宕机，如果宕机，index一个分片都没有，那么导致此index不能搜索。所以，为了保证数据的安全，我们会将每个index的分片进行备份，存储在另外的机器上。保证少数机器宕机es集群仍可以搜索。

能正常提供查询和插入的分片我们叫做主分片（primary shard），其余的叫做备份的分片（replica shard）。

与数据库同比

关系型数据库	非关系型数据库（Elasticsearch）
数据库 Database	索引 Index
表 Table	索引 Index（原为 Type）
数据行 Row	文档 Document
数据列 Column	字段 Field
约束 Schema	映射 Mapping

前期准备

演示环境： Windows

ElasticSearch 安装

我们进入 ElasticSearch下载地址下载和解压 ElasticS

最低0.47元/天解锁文章

200万优质内容无限畅学