Scrapy 中 SPIDER_MIDDLEWARES 和 DOWNLOADER_MIDDLEWARES 的区别

原创已于 2024-04-17 10:26:58 修改 · 541 阅读

CC 4.0 BY-SA版权

文章标签：

于 2024-04-17 10:26:39 首次发布

14 篇文章

订阅专栏

本文详细解释了Scrapy框架中的下载中间件和蜘蛛中间件的作用、区别，以及它们在处理请求和响应时的职责。重点介绍了如何在实际项目中运用和自定义这些中间件来定制爬虫行为。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 下载中间件的方法

process_request(request，spider): 所有请求都会调用此方法
process_response(request, response, spider)：这里的参数比上面的多了response，肯定是用来处理response的
process_exception(request, exception, spider)：处理异常
from_crawler(cls, crawler)：从settings.py获取配置

2. 蜘蛛中间件的方法

process_spider_input(response, spider)：所有请求都会调用这个方法
process_spider_output(response, result, spider)：spider解析完response之后调用该方法，result就是解析的结果(是一个可迭代对象)，其中可能是items也可能是request对象
process_spider_exception(response, exception, spider)：处理异常
process_start_requests(start_requests, spider)：同process_spider_output，不过只处理spider中start_requests方法返回的结果
from_crawler(cls, crawler)：从settings.py获取配置

3. 区别

下载中间件是连通引擎和下载器的，所以如果修改请求只会影响下载器返回的结果，如果修改响应会影响 spider 处理；
而 spider 中间件是连通引擎和 spider 的，如果修改请求则会影响整个 scrapy 的请求，因为scrapy的所有请求都来自于 spider，当然包括调度器和下载器，如果修改响应，则只会影响蜘蛛的解析，因为响应是由引擎传递给蜘蛛的。

4. 使用