基于Java的DBLP数据库爬虫系统

本文介绍了一个基于Java的DBLP数据库爬虫系统,该系统在Ubuntu上运行,使用Jsoup解析HTML,通过多线程提高爬取速度,并使用C3P0连接池和批处理优化数据库插入。系统能爬取论文的标题、作者、会议信息等,存储在Mysql数据库中。尽管存在从搜索结果开始爬取导致的效率问题,但已经成功爬取了多个知名会议的论文信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

项目平台

笔记本电脑系统:Ubuntu 16.04.2 LTS
Java version “1.8.0_51”
Mysql Server version: 5.7.17
可视化数据库管理工具:MySQL Workbench 6.3
Java version “1.8.0_51”
相关jar包:c3p0-0.9.2.1,jsoup-1.10.2,mchange-commons-java-0.2.3.4,mysql-connector-java-5.1.34-bin

实现功能

  Java爬虫系统,对DBLP(http://dblp.uni-trier.de/)中的论文信息进行爬取,爬取信息包括论文题目、作者、论文发表的会议名称、页码、年份、开会地点、开会日期等信息。姓名的姓和名分两个字段存储。将上述数据存入Mysql数据库。

基本过程

1.获取HTML
  使用HttpURLConnection获取网页源代码字符串。实现了动态页面的加载(通过Chrome DevTools对网页请求进行分析,按F12键,http://dblp.dagstuhl.de/search/publ/inc?q=ASPLOS&h=2&f=0,拿到这个请求链接后,只要修改其中的q(会议名),h(加载的论文数),f(开始位置)三个部分的值即可)。
2. 解析HTML
使用Jsoup进行HTML的解析(相比正则表达式,大大减少了脑力劳动)。
3.存入数据库
使用Mysql数据库,使用JDBC在Java程序中与数据库建立连接、发送操作数据库的语句并处理结果。
用两张表,一张表论文名加作者,一张表论文名加其他信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值