9.5-Scrapy框架【进阶】-settings.py文件详解

最新推荐文章于 2024-12-09 00:57:28 发布

chuiai8582

最新推荐文章于 2024-12-09 00:57:28 发布

阅读量304

点赞数

CC 4.0 BY-SA版权

文章标签： python xhtml 爬虫

原文链接：https://my.oschina.net/pansy0425/blog/3093095

本文详细介绍了Scrapy爬虫框架中的关键配置项，包括爬虫名、并发请求、请求头、下载延迟、代理设置等，帮助读者理解并合理设置Scrapy参数，提升爬虫效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

settings.py文件中常用的配置如下：

（1）BOT_NAME 爬虫名

默认：scrapybot
当使用stratproject命名创建项目时，其他也被自动赋值

（2）CONCURRENT_ITEMS 同时处理item的最大值

默认：100
Item Project（即Item Pipeline）同时处理（每个response的）item的最大值

（3）CONCURRENT_REQUESTS 每次发请求的并发量

默认：16
scrapy downloader并发请求的最大值

（4）DEFAULT_REQUEST_HEADERS 默认请求头

默认：DEFAULT_REQUESTS={'Accept':'text/html,application/xhtml+xml','Accept-Language':'en'}
Scrapy HTTP Request使用的默认header

（5）DEPTH_LIMIT 允许爬取的深度

默认：0
爬取网站最大允许的深度depth值，若为0，则没有限制

（6）DOWNLOAD_DELAY 下载延迟

默认：0
下载器在下载同一个网站下一页面前需要等待的时间

该选项用来限制爬取速度，支持最小数：DOWNLOAD_DELAY=0.25 #250ms的延迟

默认情况下，Scrapy在两个请求间不等待一个固定的值，而是使用0.5~1.5之间的一个随机值

（7）DOWNLOAD_TIMEOUT 超时设置

默认：180
下载器超时时间（单位：秒）

（8）ITEM_PIPELINES 管道设置

保存项目中启用的pipeline及其顺序的字典。该字典默认为空，值（value）任意，不过值（value）一般设置为0-1000范围内。且值越小优先级越高。

ITEM_PIPELINES={
    'mySpider.pipelines.SomethingPipeline':300,
    'mySpider.pipelines.ItPipeline':800,
}

（9）LOG_ENABLED 是否启用logging

默认：180

（10）LOG_ENCODING 使用的编码

默认：utf-8

（11）LOG_LEVEL 使用的log的等级

默认：DEBUG
可选等级如下：DEBUG、INFO、WARNING、ERROR、CRITICAL

（12）USER_AGENT 采用官网默认的User-Agent，除非覆盖

（13）PROXIES 代理设置

PROXIES=[
    {'ip_port':'111.11.228.75:80','password':'******'},
    {'ip_port':'120.198.243.22:80','password':'******'},
    {'ip_port':'101.71.27.120:82','password':'******'},
]

（14）COOKIES_ENABLED=False 禁用Cookies

转载于:https://my.oschina.net/pansy0425/blog/3093095