(五)Lucene——中文分词器

本文详细介绍了中文分词器的基本概念,并对比了Lucene自带的分词器与第三方分词器的功能特性。重点分析了paoding、mmseg4j、IK-analyzer等分词器的优缺点,并给出了IK-analyzer的具体使用步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 什么是中文分词器

对于英文是安装空格标点符号进行分词

对于中文应该安装具体的词来分中文分词就是将词切分成一个个有意义的词

比如:“我的中国人”,分词:我、的、中国、中国人、国人。

2. Lucene自带的中文分词器

  • StandardAnalyzer

    单字分词:就是按照中文一个字一个字地进行分词。如:“我爱中国”
    效果:爱”

  • CJKAnalyzer

    二分法分词:按两个字进行切分。如:中国人,效果:是”中国“国人”

上边两个分词器无法满足需求。

3. 第三方中文分词器

4. Ikanalyzer的使用

4.1 将jar包拷贝到项目路径下并发布

    

4.2 代码中使用Ikanalyzer替换标准分词器

    

4.3 扩展中文词库

config文件夹下创建以下文件(扩展词文件和停用词文件的编码要是utf-8注意不要用记事本保存扩展词文件和停用词文件那样的话格式中是含有bom

     

IKAnalyzer.cfg.xml    

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
    <comment>IK Analyzer 扩展配置</comment>
    <!--用户可以在这里配置自己的扩展字典     -->
    <entry key="ext_dict">ext.dic;</entry> 
<!--用户可以在这里配置自己的扩展停止词字典--> <entry key="ext_stopwords">stopword.dic;</entry>
</properties>

4.4 使用luke来查询中文分词效果

step1:将ikanalyzer的jar包,拷贝到luke工具的目录

           

 step2:使用命令打开luke工具

java -Djava.ext.dirs=. -jar lukeall-4.10.3.jar

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值