
我的研究方向----搜索引擎
rongyongfeikai2
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
搜索引擎应该包括的重要功能
<br />看了许久的JAVA后,开始开始看老师规定的书了。决定好好了解搜索引擎以及JAVA中的搜索引擎框架lucene。<br />总的来说,搜索引擎包括这些方面:<br />网页的抓取,这就主要用spider,可以用广度优先或深度优先进行网页搜集。而搜集可以分为增量搜集和定期搜集,我们著名的GOOGLE就是28天定期搜集一次。<br />而后,就是对信息进行预处理。包括关键词的提取、重复和转载的消除、链接分析以及网页重要程度的计算。<br />最后,就是提供查询服务了。包括查询方式及匹配、网页排序和文档原创 2010-10-29 17:13:00 · 1991 阅读 · 0 评论 -
博客园文章爬取代码
最近,在看博客园上的文章。希望能够爬取指定的博客园的文章,并保存为WORD文档的形式。所以,趁着周末休息,花了半天时间把它给做了出来。完整代码下载地址:http://download.csdn.net/detail/rongyongfeikai2/4462085首先,我们爬取的文章,应该包括三个部分:标题、链接和正文。所以,我们用一个POJO来存储文章。package com.Blog原创 2012-07-29 13:27:47 · 5351 阅读 · 3 评论 -
对于CSDN博客文章不能爬取的问题
看过Robin的一篇文章,就是反爬虫的。他提到了几种反爬虫的方法:1.手工拒绝,即爬虫的并发量相当高,那么按照80端口进行并发排序,然后手动的把爬虫的IP给禁掉。2.根据User-Agent拒绝,比如如果我们用Java程序进行爬取时,如果没有设header的话,User-Agent就是java,那么就禁掉User-Agent不为浏览器那样的请求。3.根据流量统计和日志分析来屏蔽爬虫,封掉流量特别大原创 2012-08-03 10:43:55 · 2729 阅读 · 0 评论 -
JAVA析取百度搜索前100个结果的URL、标题和摘要
看到网上有PHP版本和C#版本的,就是没有JAVA版本的,就写一个,虽说不是最好的解决方案,也可以供大家研究,参考。//获得百度的搜索页面,前100个搜索结果 public String getHTML(String key) throws IOException { StringBuilder sb=new StringBuilder(); String path="ht原创 2011-01-25 22:15:00 · 13474 阅读 · 16 评论 -
Berkeley DB的使用
最近在思考网络爬虫的增量更新问题,很明显,如果将URL放在unvisitedQueue中和visitedQueue中,而这两个队列仅仅简单的用JAVA提供的容器进行实现,那么由于内存的掉电易失性,再下一次爬爬取时,又是重复的从种子URL集合中取得URL,判断是否访问过,放入unvisitedQueue队列中,其实如果两次爬取的间隔时间不长的话,大量重复的链接被重复判断,效率极低。如果爬虫想要实原创 2012-05-21 16:33:34 · 2303 阅读 · 0 评论 -
Lucene3.0的SmartChineseTokenizer的使用
RT。代码如下。package com.CKmeans.Tokenizer;import java.io.IOException;import java.io.StringReader;import java.util.*;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analy原创 2012-01-23 15:30:57 · 2251 阅读 · 0 评论 -
JAVA版PageRank查询代码
也就是以下两段代码:/** * */package com.Experiment.ThemeIdentify.PageRank;/** * cee.open.pagerank.JenkinsHash.java * * This is a Bob Jenkins hashing algorithm implementation * * These a转载 2012-01-20 19:26:59 · 1681 阅读 · 0 评论 -
一种比较好的取得页面链接的方式
public static final String patternString="\\s*a\\s+href=\"([^\"]+)\""; public static ArrayList extractLink(String page) { ArrayList list=new ArrayList(); Pattern pattern=Pattern.compile(patt原创 2011-10-28 14:35:12 · 630 阅读 · 0 评论 -
Eclipse中配置Heritrix-1.14.4
在Eclipse中构建Heritrix 这里采用的是Heritrix 1.14.4(2010年5月10日的版本 目前来看是最新版本) 1.首先从http://sourceforge.net/projects/archive-crawler/ 中下载 herit转载 2011-08-29 16:28:24 · 1638 阅读 · 1 评论 -
用HttpClient和HtmlParser构建的网络爬虫程序
HttpClient是一个很方便进行Http连接操作的工具包,用它可以设置代理和模拟浏览器下载网页。而HtmlParser则是一个开源的,可以对HTML进行处理的工具包,可以很方便的对HTML进行解析。首先定义一个队列。import java.util.*;public class Queue { private LinkedList queue; //构造函数原创 2011-06-09 11:16:00 · 4534 阅读 · 3 评论 -
生成模型和判别模型
Remember.转载 2011-03-19 13:07:00 · 953 阅读 · 0 评论 -
PHP ElasticSearch的使用
ElasticSearch是一个基于Lucene的稳定的、分布式原创 2014-07-17 19:12:02 · 32435 阅读 · 6 评论