jieba结巴分词支持lucene5资源-CSDN下载

共68个文件

class：28个

java：22个

txt：8个

jieba

lucene

analysis

3星 · 超过75%的资源需积分: 50 13 浏览量 2018-04-12 15:21:10 上传评论收藏 10.97MB ZIP 举报

jieba分词库是中文处理领域的一个非常知名的开源项目，由李航开发并维护，它的全名叫做"结巴分词"，寓意“快速而准确地进行中文分词”。这个名字既俏皮又形象，反映了其在中文文本处理中的高效与精准。jieba支持多种功能，包括精确模式、全模式、搜索引擎模式等，可以满足不同场景下的分词需求。在描述中提到的“jieba分词器支持lucene5版本”，意味着这个分词库已经适配了Apache Lucene 5，这是一个广泛使用的全文检索库。Lucene提供了高效的索引和搜索功能，但默认并不支持中文。jieba分词器的集成使得用户可以在Lucene中直接使用jieba进行中文分词，提高了中文文本在Lucene中的检索效果。 jieba的lucene分析器（Analyzer）扩展了Lucene的分析能力，它将jieba的分词结果转换为Lucene可理解的文档字段，这样在建立索引和执行查询时，中文文本可以被正确处理。这在构建基于Lucene的中文搜索引擎或者信息检索系统时非常有用。文件名为“jieba-analysis-master”可能是一个包含jieba分词器的源代码仓库，其中可能包括了针对lucene5的定制化实现和其他相关工具。通常，这样的仓库会包含以下部分： 1. **源代码**：Java或Python的源代码，实现jieba与lucene的接口和逻辑。 2. **文档**：关于如何安装、配置和使用jieba-lucene分析器的说明。 3. **示例**：演示如何在实际项目中应用jieba-lucene的代码示例。 4. **测试**：单元测试和集成测试，确保代码功能的正确性。 5. **配置文件**：可能包含用于配置分词器或lucene的配置文件。 6. **README**：项目介绍，包括安装步骤、使用方法以及贡献指南。在实际使用中，开发者首先需要安装jieba库和对应的lucene版本，然后在Lucene的配置中指定jieba分词器作为分析器。通过这种方式，可以有效提升中文文本的检索效率和准确性，避免因为中文分词问题导致的检索不准确或无法检索的情况。总结来说，jieba结巴分词是一个强大的中文分词工具，它对lucene5的支持使得在全文检索场景下，中文处理变得更加方便。如果你正在构建一个需要处理大量中文文本的搜索引擎，jieba和它的lucene分析器将是不可或缺的组件。

资源推荐

资源详情

资源评论

收起资源包目录

jieba分词lucene5.zip （68个子文件）

jieba-analysis-master

conf

stopword.dic 265B

sougou.dic 983KB

user.dic 84B

src

test

resources

test.txt 3KB

java

com

huaban

analysis

jieba

AnalyzerUtils.java 2KB

JiebaSegmenterTest.java 53KB

JiebaAnalyzerTest.java 594B

main

resources

prob_emit.txt 650KB

dict.txt 4.84MB

dict.big.txt 8.45MB

Jieba.xml 1KB

java

com

huaban

analysis

jieba

conf

Configuration.java 605B

DefaultConfiguration.java 4KB

Pair.java 300B

Hit.java 3KB

dic

WordDictionary.java 17KB

DictSegment.java 10KB

viterbi

FinalSeg.java 9KB

SegToken.java 446B

solr

EmptyTokenizerFactory.java 654B

SentenceTokenizerFactory.java 669B

JiebaTokenFilterFactory.java 736B

Node.java 223B

util

FileUtils.java 7KB

CharacterUtils.java 3KB

lucene

tokenfilter

JiebaTokenFilter.java 3KB

analyzer

JiebaAnalyzer.java 1KB

tokenizer

EmptyTokenizer.java 605B

SentenceTokenizer.java 3KB

JiebaSegmenter.java 13KB

target

classes

prob_emit.txt 650KB

dict.txt 4.84MB

com

huaban

analysis

jieba

conf

Configuration.class 331B

DefaultConfiguration$SingletonHolder.class 871B

DefaultConfiguration.class 4KB

DefaultConfiguration$1.class 273B

dic

DictSegment.class 6KB

WordDictionary.class 15KB

viterbi

FinalSeg.class 9KB

JiebaSegmenter$1.class 245B

Pair.class 1KB

JiebaSegmenter.class 10KB

JiebaSegmenter$SegMode$2.class 748B

JiebaSegmenter$SegMode.class 2KB

SegToken.class 816B

JiebaSegmenter$SegMode$1.class 750B

JiebaSegmenter$SegMode$4.class 748B

Hit.class 2KB

JiebaSegmenter$SegMode$3.class 749B

util

FileUtils$1.class 825B

FileUtils.class 4KB

CharacterUtils.class 2KB

lucene

tokenfilter

JiebaTokenFilter.class 4KB

analyzer

JiebaAnalyzer.class 2KB

tokenizer

SentenceTokenizer.class 3KB

EmptyTokenizer.class 670B

Node.class 467B

dict.big.txt 8.45MB

Jieba.xml 1KB

test-classes

test.txt 3KB

com

huaban

analysis

jieba

JiebaSegmenterTest.class 52KB

AnalyzerUtils.class 3KB

JiebaAnalyzerTest.class 1KB

README.org 5KB

LICENSE 10KB

README.md 90B

pom.xml 8KB

bin

build.sh 98B

评论收藏

内容反馈

zuoming120

2019-04-30

研究研究一看看
KingsGlaive_s

2019-07-12

没多大用不如从github下一份 https://github.com/huaban/jieba-analysis 浪费积分