scrapy中自定义过滤规则以及start_urls不进过滤器的问题

生活不只*眼前的苟且

于 2018-11-29 19:22:10 发布

阅读量3.7k

点赞数

CC 4.0 BY-SA版权

分类专栏： Python技术基础

本文链接：https://blog.csdn.net/u011734144/article/details/84638329

Python技术基础专栏收录该内容

35 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

为什么要自定义过滤规则呢？首先，我们需要过滤，但是不是说抓一次就不抓了，因为我们的抓取是一段时间抓取一次

自定义策略如下：

首先我试图直接继承RFPDupeFilter

在settings.py同级的目录下新建dupefilter.py文件，按照网上说的方法，写了内容如下

from scrapy.dupefilter import RFPDupeFilter
import hashlib
from scrapy.utils.request import request_fingerprint
from scrapy.dupefilter import BaseDupeFilter


class URLFilter(RFPDupeFilter):

    def __init(self):
        RFPDupeFilter.__init__(self)

    def request_seen(self, request):

        fp = self.request_fingerprint(request)
        added = self.server.sadd(self.key, fp)

        return added == 0

在settings.py中添加

DUPEFILTER_CLASS = 'CrawlBaiduMobile.dupefilter.URLFilter'

但是启动spider会报如下错误：

ValueError: (

了解本专栏

超级会员免费看