Scrapy 学习篇(六)--crawlspider

最新推荐文章于 2024-08-05 10:37:56 发布

原创最新推荐文章于 2024-08-05 10:37:56 发布 · 228 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #scrapy #crawlspider

scrapy 专栏收录该内容

8 篇文章

订阅专栏

本文介绍如何使用Scrapy的CrawlSpider进行网站爬取，包括配置项目的启动、定义爬虫规则、提取链接及处理响应等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

crawlspider的使用

scrapy startproject 项目名
scrapy genspider -t crawl 爬虫名 allow_domain
指定start_url，对应的响应会通过rules提取url地址
完善rules，添加Rule

注意点：

url地址不完整，crawlspider会自带补全后请求
parse函数不能定义，它有特殊功能，用于url的提取
callback：连接提取器提取出来的url地址对应的响应交给他处理
follow：连接提取器提取处理的url地址对应的响应是否继续被rules过滤

# -*- coding:utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider,Rule

class CfSpider(CrawlSpider):
    name = 'cf'
    allowed_domains=['circ.gov.cn']
    start_urls = ['http://circ.gov.cn/']

    #定义提取url地址规则
    rules = (
        #LinkExtractor 连接提取器，提取url地址
        #callback 提取出来的url地址的response会交给callback处理
        #follow 当前url地址的响应是否重新通过rules来提取url地址
        Rule(LinkExtractor(allow=r'Itmes/',callback='parse_item',follow=True),
        Rule(LinkExtractor(allow=r'Itmes/',callback='parse_item',follow=True)
)

#parse函数有特殊功能，不能定义
def parse_item(self,response):
    i={}
    return i