9.5-Scrapy框架【进阶】-settings.py文件详解

本文详细介绍了Scrapy爬虫框架中的关键配置项,包括爬虫名、并发请求、请求头、下载延迟、代理设置等,帮助读者理解并合理设置Scrapy参数,提升爬虫效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

settings.py文件中常用的配置如下:

(1)BOT_NAME  爬虫名 

  • 默认:scrapybot
  • 当使用stratproject命名创建项目时,其他也被自动赋值

(2)CONCURRENT_ITEMS  同时处理item的最大值 

  • 默认:100
  • Item Project(即Item Pipeline)同时处理(每个response的)item的最大值

(3)CONCURRENT_REQUESTS   每次发请求的并发量

  • 默认:16
  • scrapy downloader并发请求的最大值

(4)DEFAULT_REQUEST_HEADERS     默认请求头

  • 默认:DEFAULT_REQUESTS={'Accept':'text/html,application/xhtml+xml','Accept-Language':'en'}
  • Scrapy HTTP Request使用的默认header

(5)DEPTH_LIMIT  允许爬取的深度

  • 默认:0
  • 爬取网站最大允许的深度depth值,若为0,则没有限制

(6)DOWNLOAD_DELAY  下载延迟

  • 默认:0
  • 下载器在下载同一个网站下一页面前需要等待的时间

该选项用来限制爬取速度,支持最小数:DOWNLOAD_DELAY=0.25    #250ms的延迟

默认情况下,Scrapy在两个请求间不等待一个固定的值,而是使用0.5~1.5之间的一个随机值

(7)DOWNLOAD_TIMEOUT  超时设置

  • 默认:180
  • 下载器超时时间(单位:秒)

(8)ITEM_PIPELINES  管道设置

保存项目中启用的pipeline及其顺序的字典。该字典默认为空,值(value)任意,不过值(value)一般设置为0-1000范围内。且值越小优先级越高。

ITEM_PIPELINES={
    'mySpider.pipelines.SomethingPipeline':300,
    'mySpider.pipelines.ItPipeline':800,
}

(9)LOG_ENABLED  是否启用logging

  • 默认:180

(10)LOG_ENCODING  使用的编码

  • 默认:utf-8

(11)LOG_LEVEL  使用的log的等级

  • 默认:DEBUG
  • 可选等级如下:DEBUG、INFO、WARNING、ERROR、CRITICAL

(12)USER_AGENT  采用官网默认的User-Agent,除非覆盖

(13)PROXIES  代理设置

PROXIES=[
    {'ip_port':'111.11.228.75:80','password':'******'},
    {'ip_port':'120.198.243.22:80','password':'******'},
    {'ip_port':'101.71.27.120:82','password':'******'},
]

(14)COOKIES_ENABLED=False  禁用Cookies

转载于:https://my.oschina.net/pansy0425/blog/3093095

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值