关于scrapy中request过滤问题

最新推荐文章于 2024-06-28 16:27:16 发布

请针对我谢谢

最新推荐文章于 2024-06-28 16:27:16 发布

阅读量2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签： scrapy 爬虫 python

本文链接：https://blog.csdn.net/weixin_42833042/article/details/84064501

爬虫专栏收录该内容

5 篇文章

订阅专栏

本文探讨了Scrapy爬虫中数据缺失的问题，尤其是在spidermiddlewares.offsite过滤导致的数据跳过现象。通过理解官方文档解释，介绍了如何利用Request方法中的dont_filter参数来避免不必要的过滤，确保爬取数据的完整性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题起因

由于scrapy中有自带的spidermiddlewares去过滤我们yield进来的request请求，很多时候会导致爬取数据缺失会直接一部分跳过。

常见情景：
比如伯乐的文章
可以发现，最常见的就是spidermiddlewares.offsite过滤，官方文档也说明了：

我收到了 “Filtered offsite request” 消息。如何修复？
这些消息(以 DEBUG 所记录)并不意味着有问题，所以你可以不修复它们。

这些消息由Offsite Spider中间件(Middleware)所抛出。该(默认启用的)中间件筛选出了不属于当前spider的站点请求。

文档地址：Scrapy常见问题(FAQ)

解决问题

在Request方法里，提供了dont_filter参数，设置在Request中，并改成True以回避过滤策略

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

请针对我谢谢

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

scrapy中自定义过滤规则以及start_urls不进过滤器的问题

u011734144的专栏

11-29

3711

为什么要自定义过滤规则呢？首先，我们需要过滤，但是不是说抓一次就不抓了，因为我们的抓取是一段时间抓取一次自定义策略如下：首先我试图直接继承RFPDupeFilter 在settings.py同级的目录下新建dupefilter.py文件，按照网上说的方法，写了内容如下 from scrapy.dupefilter import RFPDupeFilter import hashli...

Scrapy - Request 和 Response（请求和响应）

墨鱼菜鸡

07-11

669

Requests and Responses：http://doc.scrapy.org/en/latest/topics/request-response.html Requests and Responses(中文版)：https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/request-res...

参与评论您还未登录，请先登录后发表或查看评论

在scrapy中，不过滤重复的请求

一个程序员的成长之路。。。

02-01

7331

Scrapy提供了一个内置的重复请求过滤器，用于根据网址过滤重复的请求。可以根据业务需求制定规则过滤重复的请求基于url过滤重复的请求假设已访问过 http:://www.abc.com/p/xyz.html?id=1234&refer=4567 我想做的是过滤请求，如： http:://www.abc.com/p/xyz.html?id=1234&refer=5678 通

scrapy 爬虫过滤相同的url，Filtered duplicate request，dont_filter

qq_23392341的博客

09-01

4538

yield Request('https://www.zhihu.com', meta={'cookiejar':response.meta['cookiejar']}, headers=self.headers_zhihu, callback=

记一次使用scrapy过程中遇到的问题之过滤问题

mr~li的博客

04-17

789

我们都知道，scrapy的默认过滤机制是过滤已经请求过的url地址，就是说如果某个url地址在发起新的请求前已经请求过了，那么scrapy默认会给我们过滤掉本次请求，如果想改变这种默认机制也是可以的，在发请求的时候假如参数dont_filter=True，这个值默认是False的，所以才会过滤掉已经请求过的地址，至于过滤的原理是基于什么，这里不做详细介绍，有兴趣的可以看下scrapy的源码介绍，是...

使用 Scrapy 框架对重复的 url 无法获取数据，dont_filter=True

JIE的博客 --- moon_coder

08-02

2595

Scrapy在进入parse时，会默认请求一次start_urls[0]，而当你在parse中又对start_urls[0]进行请求时，Scrapy底层会默认过滤掉重复的url，不会对该请求进行提交，这就是为什么parse2不被调用的原因。添加dont_filter=True参数，这样Scrapy就不会过滤掉重复的请求。Scrapy内置了重复过滤功能，默认情况下该功能处于打开状态。你使用了Scrapy对重复的url进行请求。此时，parse2会被正常调用。...

【Scrapy】不同的Request请求，自己选择中间件进行过滤。scrapy指定某一个请求使用selenium模拟加载。

May女子の博客

10-10

1932

问题描述：Scrapy爬虫里，不同的Request请求，根据需求来选择不同的中间件进行过滤。举例：scrapy爬虫时，有些请求需要借助selenium，但是其他请求不需要用selenium，那如何让某一个单独的请求使用selenium这个中间件？解决方法：简单将讲，用好meta这个参数进行传参。第一步：先准备好一个selenium中间件第二步：全局开启selenium中间件第三步：爬...

Scrapy框架：Request和Response对象，使用Request发送get请求、FormRequest发送post请求

旧人小表弟的博客 - 无业游民学习笔记

12-01

3017

创建爬虫 scrapy startproject renren cd renren scrapy gensipder -c crawl renren_login "renren.com" 修改settings.py代码爬虫部分代码 # -*- coding: utf-8 -*- import scrapy ''' 登录人人网，访问大鹏页面 post、get请求 ''' class RenrenLoginSpider(scrapy.Spider): name = 'renren_

Scrapy中爬虫优化技巧分享

最新发布

wx_19970108018的博客

06-28

1477

同时，scrapy也有越来越多的用户在使用它来爬取数据，因此，在使用scrapy的过程中，我们需要考虑如何优化我们的爬虫，以便于我们能够更加高效地抓取需要的数据。本文将会分享一些scrapy中爬虫优化的技巧。为了优化这种情况，我们可以将请求数据的URL哈希值和请求的方法保存在内存中，以便于能够快速地判断URL是否请求过。因此，我们应该尽可能地使用CSS选择器，以便于优化我们的爬虫。Scrapy是一个优秀的Python爬虫框架，但是在使用过程中我们需要注意优化我们的爬虫，以便于更加高效地抓取我们需要的数据。

scrapy实现分布式爬虫以及布隆过滤器，scrapy-redis所遇到的问题，终端进入虚拟环境

weixin_47481982的博客

11-05

993

记录一下scrapy实现分布式爬虫以及布隆过滤器的使用：所用版本： pip install scrapy==2.5.1 pip install scrapy-redis==0.7.2 版本问题，有的版本过高会导致scrapy-redis无法正常使用，卸载安装过的库只需要执行命令pip uninstall scrapy即可卸载其他同理。报错：from collections import Iterable Im

scrapy 在迭代爬取时被拒 offsite 增加dont_filter=True

weixin_30291791的博客

10-09

279

转载于:https://www.cnblogs.com/yijiaming/p/9759027.html

scrapy 使用自定义的过滤器

易水寒

07-08

1648

from scrapy_redis.dupefilter import RFPDupeFilter class CustomFilter(RFPDupeFilter): def request_seen(self, request): """Returns True if request was already seen. Parameters ...

让scrapy 重复抓取同一个页面

Sean的博客

12-19

6350

Request(url, dont_filter = True)

requests 可以 scrapy 不行_Scrapy 源码阅读（二）：看源码

weixin_39888080的博客

11-26

155

(接上文 Scrapy 源码阅读(一)：Twisted 基础和 Scrapy 数据流)3 看源码注意：本节内容基于 Scrapy 1.7不知道大家有没有这样的体会？平时写业务代码的时候，一般是不会去关注各个模块怎么关联起来的。我要写控制器、写服务层、写模型层等，就按部就班的找到相应目录下的文件开始写了。当碰到问题在网上找不到好的解决方法或者闲时想学习一些设计方法的时候，我们就会去关注某些...

scrapy学习day2

qq_44649956的博客

07-19

660

具体在命令行终端的操作就不展示了爬虫实战------ 实现翻页核心思想就是在起始页面找到转到下一页的那个标签中的url段，然后截取出来，并组合成完整url 从页面中提取下一个网页url的组成部分，组成完整url，并组装成requests发送 url的提取与组合，以及返回requests 这些代码是我将从前做的豆瓣电影爬取（普通爬取）用scrapy框架写出来写入mysql数据库先得在mysql中建表 scrapy中cookies不放在headers中，需...

DEBUG: Filtered offsite request to

yujinlong2002的博客

02-23

233

二次解析的域名被过滤掉了。

Filtered offsite request to 错误

Kwoky的博客

07-10

5391

用scrapy-redis进行数据爬取，遇到了问题:DEBUG: Filtered offsite request to 'www.xxx.com': 。。。那就是request的地址和allow_domain里面的冲突而被过滤我的爬虫类继承自RedisSpider，是不需要写allowd_domains的解决方法：使用Request的参数dont_filter=True，即：yield Re...

昨天一个同事代码中报错[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to

liuqingup的专栏

06-29

557

昨天我遇到了一个有趣的问题，一个同事的代码中出现了一个报错，报错信息为：[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to...

scrapy常见问题

王轩的博客

03-05

509

文章目录scrapy常见问题dont_filter:默认为False，会过滤请求的url地址，即请求过的url地址不会继续被请求scrapy如何使用多个items模型类 scrapy常见问题 dont_filter:默认为False，会过滤请求的url地址，即请求过的url地址不会继续被请求 scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False]) dont_filter:默认为Fals

scrapy 布隆过滤器中间件编写

08-19

在 Scrapy 中使用布隆过滤器中间件可以有效地过滤掉已经爬取过的重复URL，提高爬虫的效率。下面是一个简单的示例，展示了如何编写一个布隆过滤器中间件： ```python from scrapy.dupefilters import BaseDupeFilter...