ElasticSearch集成个性化中文分词插件

本文介绍了在Elasticsearch中使用不同分词器的效果对比,重点讲解了如何集成并使用IK分词器进行中文文本的高效分词,通过具体实例展示了标准分词器与IK分词器在处理中文文本时的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ES常用的分词器有StandardAnalyzer、ChineseAnalyzer、CJKAnalyze、IKAnalyzer等,其中IK词库分词是第三方插件,对中文支持尚可,也是本文介绍的、实践过程中用到的分词器。

第三方插件需要安装,IK分词器插件安装版本要与ES版本一致,否则容易不兼容。

集成方式超级简单,从GIT上下载IK分词器插件,并拷贝至ES的plugin文件夹下,启动ES,即OK。
加载插件成功截图如下:
在这里插入图片描述
验证集成效果:
1、用标准分词器
GET http://127.0.0.1:9200/_analyze?analyzer=standard&pretty=true&text=学习Elasticsearch
响应为:

{
  "tokens": [
    {
      "token": "学",
      "start_offset": 0,
      "end_offset": 1,
      "type": "<IDEOGRAPHIC>",
      "position": 0
    },
    {
      "token": "习",
      "start_offset": 1,
      "end_offset": 2,
      "type": "<IDEOGRAPHIC>",
      "position": 1
    },
    {
      "token": "elasticsearch",
      "start_offset": 2,
      "end_offset": 15,
      "type": "<ALPHANUM>",
      "position": 2
    }
  ]
}

2、用IK分词器
GET http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text=学习Elasticsearch
响应为:

{
  "tokens": [
    {
      "token": "学习",
      "start_offset": 0,
      "end_offset": 2,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "elasticsearch",
      "start_offset": 2,
      "end_offset": 15,
      "type": "ENGLISH",
      "position": 1
    }
  ]
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值