自己写的lucene实例java搜索引擎资源-CSDN下载

共20个文件

class：6个

java：6个

jar：5个

lucene

搜索引擎

4星 · 超过85%的资源需积分: 9 160 浏览量 2013-09-04 23:31:17 上传评论 1 收藏 2.43MB RAR 举报

Apache Lucene是一个强大的全文搜索引擎库，由Java编写，被广泛应用于构建高效的文本检索系统。它提供了索引和搜索功能，使开发者能够轻松地在大量文本数据中实现高级搜索功能。在这个"自己写的lucene实例 java搜索引擎"中，我们将会探讨Lucene如何与Java结合，以实现在文件内容中的高效搜索。我们需要理解Lucene的基本工作流程。这个过程主要包括以下几个步骤： 1. **创建索引**：这是使用Lucene的第一步，通过`IndexWriter`类将文件内容转换为倒排索引。倒排索引是一种数据结构，它将每个词项映射到包含该词项的文档列表，这使得快速查找匹配特定查询的文档成为可能。`IndexProcesser`可能是用于处理这一阶段的自定义类，负责读取文件、分析文本并创建索引。 2. **分词**：在创建索引前，需要使用`Analyzer`进行分词。`Analyzer`可以处理文本的标准化，如去除标点符号、转换为小写等，并将文本拆分为可搜索的词项。你可以根据需求选择或自定义合适的分词策略。 3. **文档字段**：在Lucene中，文件被视为`Document`对象，每个文档可以包含多个字段，如`TextField`（用于全文搜索）和`StoredField`（用于存储非搜索但需要返回的信息）。`Document`对象在索引时添加到`IndexWriter`。 4. **查询解析**：当用户输入搜索查询时，`QueryParser`会将查询字符串转换为`Query`对象，这可以是布尔组合的词项、短语、范围查询等。`Analyzer`在此过程中同样起作用，处理查询文本。 5. **搜索**：使用`IndexSearcher`执行`Query`，找到与之匹配的文档。`IndexSearcher`会返回一个`TopDocs`对象，包含了匹配文档的得分和排序信息。 6. **结果获取**：`ScoreDoc`对象包含了每个匹配文档的相关信息，如文档ID和得分。这些信息可以用来获取实际的`Document`对象，从而展示给用户。 7. **优化**：`IndexWriter`还提供了索引优化的功能，例如合并段以减少磁盘空间占用和提高搜索性能。在实践中，你可能会遇到一些挑战，如性能调优、中文分词问题、内存管理等。对于中文处理，你可能需要使用如IK Analyzer或Smart Chinese Analyzer这样的专门针对中文的分词器。此外，确保合理配置缓存、批量处理索引更新以及定期重建索引也是优化搜索性能的关键。这个实例展示了如何利用Apache Lucene来实现一个简单的Java搜索引擎，涵盖了从索引构建到查询执行的全过程。通过对`IndexProcesser`类的深入理解和调试，你可以进一步定制这个搜索引擎，满足特定的需求和场景。

资源推荐

资源详情

资源评论

收起资源包目录

IndexProcesser.rar （20个子文件）

IndexProcesser

bin

IndexProcesser.class 3KB

newtest

IndexProcess.class 4KB

test.class 724B

SearchProcess.class 3KB

Search.class 5KB

test.class 830B

lucene-analyzers-3.6.1.jar 1.12MB

lucene-core-3.6.1.jar 1.47MB

lucene-highlighter-3.6.1.jar 87KB

.settings

org.eclipse.jdt.core.prefs 629B

src

Search.java 4KB

test.java 373B

newtest

SearchProcess.java 2KB

test.java 253B

IndexProcess.java 2KB

IndexProcesser.java 2KB

.project 390B

lucene-memory-3.6.1.jar 29KB

.classpath 615B

lucene-demo-3.6.1.jar 16KB

import java.io.File; import java.io.IOException; import java.util.Date; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.Term; import org.apache.lucene.index.TermDocs; import org.apache.lucene.queryParser.ParseException; import org.apache.lucene.queryParser.QueryParser; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.ScoreDoc; import org.apache.lucene.search.TermQuery; import org.apache.lucene.search.TopDocs; import org.apache.lucene.search.TopDocsCollector; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory; import org.apache.lucene.util.Version; public class Search { private String INDEX_STORE_PATH="E:\\index"; public void indexSearch(String searchType,String searchKey) throws IOException{ System.out.println("使用索引方式索引"); Directory directory = FSDirectory.open(new File("E://index")); IndexReader reader=IndexReader.open(directory); IndexSearcher searcher=new IndexSearcher(reader); QueryParser parser = new QueryParser(Version.LUCENE_36,"content",new StandardAnalyzer(Version.LUCENE_36)); //创建Query表示搜索域为content中包含Thread的文档 try { Query query = parser.parse(searchKey); // Hits hits = indexSearcher.search(query); // System.out.println( "找到了 " + hits.length() + "结果 " ); // for ( int i = 0 ;i // { // Document doc = hits.doc(i); // System.out.println(doc.get( " name " )); // } // TopDocsCollector collector = new TopDocsCollector(); // 启用这个 TopDocs tds = searcher.search(query, 10);//搜索的条数 System.out.println(tds.totalHits + " total results"); System.out.println("-----匹配结果如下------"); ScoreDoc[] scoredocs = tds.scoreDocs; for(int i = 0; i < scoredocs.length; i++){ ScoreDoc scoreDoc = scoredocs[i]; Document d = searcher.doc(scoreDoc.doc); int se=scoredocs[i].doc; System.out.println(i + "--得分:" +scoreDoc.score +" 文件路径:"); Document doc = searcher.doc(se); // 通过编号，拿到文档 String paty=doc.get("path"); System.out.println(paty); } //6.根据TopDocs获取ScoreDoc对象 ScoreDoc[] sds = tds.scoreDocs; for(ScoreDoc sd:sds){ //7.根据Searcher和ScoreDoc对象获取Document对象 Document doc = searcher.doc(sd.doc); //8.根据Document对象获取需要的值 System.out.println(doc.get("filename")+"["+doc.get("path")+"]"); // ScoreDoc scoreDoc = scoredocs[0]; // // Document d = searcher.doc(scoreDoc.doc); // String path = d.get("uri"); // System.out.println(0 + "--得分:" +scoreDoc.score +" 文件路径:"+doc.get("path")); } } catch (ParseException e) { // TODO Auto-generated catch block e.printStackTrace(); } Term t=new Term(searchType,searchKey);//建立搜索单元 Query q=new TermQuery(t);//由term生成query System.out.println("----------TermQuery: "+q.toString()); Date begintime=new Date(); TermDocs termdocs=searcher.getIndexReader().termDocs(t);//获取一个美剧对象<key,value> while(termdocs.next()){ System.out.println(termdocs.freq()+" "+searcher.getIndexReader().document(termdocs.doc()).getField("filename").stringValue()); } Date endtime=new Date(); long timeofsearch=begintime.getTime()-endtime.getTime(); System.out.println("耗时"+timeofsearch); } }

评论收藏

内容反馈