基于Java的DBLP数据库爬虫系统

最新推荐文章于 2025-06-09 17:30:06 发布

原创

最新推荐文章于 2025-06-09 17:30:06 发布 · 2.1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#java爬虫 #数据库 #多线程 #ubuntu #Jsoup

本文介绍了一个基于Java的DBLP数据库爬虫系统，该系统在Ubuntu上运行，使用Jsoup解析HTML，通过多线程提高爬取速度，并使用C3P0连接池和批处理优化数据库插入。系统能爬取论文的标题、作者、会议信息等，存储在Mysql数据库中。尽管存在从搜索结果开始爬取导致的效率问题，但已经成功爬取了多个知名会议的论文信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

项目平台

笔记本电脑系统：Ubuntu 16.04.2 LTS
Java version “1.8.0_51”
Mysql Server version: 5.7.17
可视化数据库管理工具：MySQL Workbench 6.3
Java version “1.8.0_51”
相关jar包：c3p0-0.9.2.1，jsoup-1.10.2，mchange-commons-java-0.2.3.4，mysql-connector-java-5.1.34-bin

实现功能

　　Java爬虫系统，对DBLP（http://dblp.uni-trier.de/）中的论文信息进行爬取，爬取信息包括论文题目、作者、论文发表的会议名称、页码、年份、开会地点、开会日期等信息。姓名的姓和名分两个字段存储。将上述数据存入Mysql数据库。

基本过程

1．获取HTML
　　使用HttpURLConnection获取网页源代码字符串。实现了动态页面的加载（通过Chrome DevTools对网页请求进行分析，按F12键，http://dblp.dagstuhl.de/search/publ/inc?q=ASPLOS&h=2&f=0，拿到这个请求链接后，只要修改其中的q（会议名），h（加载的论文数），f（开始位置）三个部分的值即可）。
2. 解析HTML
使用Jsoup进行HTML的解析（相比正则表达式，大大减少了脑力劳动）。
3．存入数据库
使用Mysql数据库，使用JDBC在Java程序中与数据库建立连接、发送操作数据库的语句并处理结果。
用两张表，一张表论文名加作者，一张表论文名加其他信息。