settings.py文件中常用的配置如下:
(1)BOT_NAME 爬虫名
- 默认:scrapybot
- 当使用stratproject命名创建项目时,其他也被自动赋值
(2)CONCURRENT_ITEMS 同时处理item的最大值
- 默认:100
- Item Project(即Item Pipeline)同时处理(每个response的)item的最大值
(3)CONCURRENT_REQUESTS 每次发请求的并发量
- 默认:16
- scrapy downloader并发请求的最大值
(4)DEFAULT_REQUEST_HEADERS 默认请求头
- 默认:DEFAULT_REQUESTS={'Accept':'text/html,application/xhtml+xml','Accept-Language':'en'}
- Scrapy HTTP Request使用的默认header
(5)DEPTH_LIMIT 允许爬取的深度
- 默认:0
- 爬取网站最大允许的深度depth值,若为0,则没有限制
(6)DOWNLOAD_DELAY 下载延迟
- 默认:0
- 下载器在下载同一个网站下一页面前需要等待的时间
该选项用来限制爬取速度,支持最小数:DOWNLOAD_DELAY=0.25 #250ms的延迟
默认情况下,Scrapy在两个请求间不等待一个固定的值,而是使用0.5~1.5之间的一个随机值
(7)DOWNLOAD_TIMEOUT 超时设置
- 默认:180
- 下载器超时时间(单位:秒)
(8)ITEM_PIPELINES 管道设置
保存项目中启用的pipeline及其顺序的字典。该字典默认为空,值(value)任意,不过值(value)一般设置为0-1000范围内。且值越小优先级越高。
ITEM_PIPELINES={ 'mySpider.pipelines.SomethingPipeline':300, 'mySpider.pipelines.ItPipeline':800, }
(9)LOG_ENABLED 是否启用logging
- 默认:180
(10)LOG_ENCODING 使用的编码
- 默认:utf-8
(11)LOG_LEVEL 使用的log的等级
- 默认:DEBUG
- 可选等级如下:DEBUG、INFO、WARNING、ERROR、CRITICAL
(12)USER_AGENT 采用官网默认的User-Agent,除非覆盖
(13)PROXIES 代理设置
PROXIES=[ {'ip_port':'111.11.228.75:80','password':'******'}, {'ip_port':'120.198.243.22:80','password':'******'}, {'ip_port':'101.71.27.120:82','password':'******'}, ]
(14)COOKIES_ENABLED=False 禁用Cookies