爬虫–Jsoup
一、Jsoup简介
Jsoup是另一种抓取网页的方式,相比httpclient,它的功能更丰富些。
二、特点
优点:
- 可以根据抓取的网页生成DOM树,可以将抓取的网页规范化,如补全有开始没结束的标签;
- 可以根据css选择器查找、取出数据;
- 提供类似jquery方式提取数据;
- 抓取速度也很快;
缺点:
- 不支持javascript
三、实例
3.1 添加maven依赖
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>
3.2 代码实例
public class JsoupCrawlerMain {
public static void main(String[] args) throws Exception {
jsoupCrawler();
}
static void jsoupCrawler() throws Exception {
String url = "http://www.ifeng.com/";
Document doc = Jsoup.connect(url)
.timeout(5000)
.get();
Elements eles = doc.select("#headLineDefault > h1 > a");
if(Objects.nonNull(eles)){
String result = eles.text().trim();
System.out.println("ifeng headline is : " + result);
}
}
}