本文主要介绍 ElasticSearch的使用
如有需要,可以参考
如有帮助,不忘 点赞 ❥收藏+关注哦
ELK是一个免费开源的日志分析架构技术栈总称,其中包含三大基础组件,分别是 ElasticSearch、Logstash、Kibana。ELK在实际开发中不仅仅使用于日志分析,它还可以支持其他任何数据搜索、分析和收集的场景,其中日志分析和收集更具有代表性。
既然 ELK 这么有用,那这篇我们就先来认识一下什么是 ElasticSearch吧!
简介
简单来说 ElasticSearch 就是一个搜索框架。对于搜索这个词我们并不陌生,当我们输入关键词后,返回含有该关键词的所有信息结果。
在我们平时用到最多的便是数据库搜索:
SELECT * FROM USE WHERE NAME LIKE %小菜%
复制代码
但是用数据库做搜索存在着许多弊端,例如:
- 存储问题:当数据量大的时候就必须进行分库分表。
- 性能问题:当数据量过大时,使用LIKE会对上亿条数据进行逐行扫描,性能受到严重影响。
- 不能分词:当我们搜索 游戏本电脑 的时候,只会返回完全和关键词一样的数据,如果搜索 游戏电脑,那么是不是就会没有数据返回。
因此基于以上问题,ElasticSearch出现了。它是使用 Java 开发的,基于 Lucene、分布式、通过 Restful 方式进行交互的近实时搜索平台框架。它的优点如下:
- 分布式的搜索引擎和数据分析引擎
- 全文检索,结构化检索和数据分析
- 对海量数据进行近实时的处理
Lucene 介绍
Lucene 是一个功能强大的搜索库,如果我们直接基于 Lucene 开发,那么会非常复杂。而 ElasticSearch 是基于 Lucene 开发的,封装了许多 Lucene 底层功能,提供了简单易用的 RestFul api接口和许多语言的客户端。
ElasticSearch核心概念
- NRT(Near Realtime) 近实时
- 写入数据时,过 1 秒才会被搜索到,因为内部需要分词,引入索引
- es 搜索和分析数据都是秒级内出结果
- Cluster 集群
包含一个或多个启动着es实例的机器群。通常一台机器起一个es实例。同一网络下,集名一样的多个es实例自动组成集群,自动均衡分片等行为。默认集群名为“elasticsearch”。
- Node 节点
每个es实例称为一个节点。节点名自动分配,也可以手动配置。
- Index 索引
包含一堆有相似结构的文档数据。索引创建规则:
- 仅限小写字母
- 不能包含 \、/、 *、?、"、<、>、|、# 以及空格符等特殊符号
- 从7.0版本开始不再包含冒号
- 不能以**-、_或+**开头
- 不能超过255个字节(注意它是字节,因此多字节字符将计入255个限制)
- Document 文档
es中的最小数据单元。一个document就像数据库中的一条记录。通常以json格式显示。多个document存储于一个索引(Index)中。
- Field 字段
就像数据库中的列(Columns),定义每个document应该有的字段。
- Type 类型
每个索引里都可以有一个或多个type,type是index中的一个逻辑数据分类,一个type下的document,都有相同的field。
注:6.0之前的版本有type(类型)概念,type相当于关系数据库的表,ES官方将在ES9.0版本中彻底删除type。本教程typy都为_doc。
- Shard 分片
index数据过大时,将index里面的数据,分为多个shard,分布式的存储在各个服务器上面。可以支持海量数据和高并发,提升性能和吞吐量,充分利用多台机器的cpu。
- replica 副本
在分布式环境下,任何一台机器都会随时宕机,如果宕机,index一个分片都没有,那么导致此index不能搜索。所以,为了保证数据的安全,我们会将每个index的分片进行备份,存储在另外的机器上。保证少数机器宕机es集群仍可以搜索。
能正常提供查询和插入的分片我们叫做主分片(primary shard),其余的叫做备份的分片(replica shard)。
与数据库同比
关系型数据库 |
非关系型数据库(Elasticsearch) |
数据库 Database |
索引 Index |
表 Table |
索引 Index(原为 Type) |
数据行 Row |
文档 Document |
数据列 Column |
字段 Field |
约束 Schema |
映射 Mapping |
前期准备
演示环境: Windows
ElasticSearch 安装
我们进入 ElasticSearch下载地址 下载和解压 ElasticS