python 创建爬虫项目_首先在终端上进入到要生成项目的路径. 然后输入scrapy startproject 项目名启-CSDN博客

本文详细介绍了如何使用pip安装Scrapy，并通过阿里云镜像加速。随后，指导读者如何在指定路径下创建Scrapy项目及爬虫，设置爬虫参数以遵守或绕过robots协议，调整下载延迟，定制请求头，以及启用下载中间件和管道。最后，提供了两种运行Scrapy项目的实用方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

安装 Scrapy：pip install scrapy -i https://mirrors.aliyun.com/pypi/simple/ (后面加上-i https://mirrors.aliyun.com/pypi/simple/ 国内资源会提高下载速度)
打开 Cmd / PyCharm–Terminal
进入想要创建爬虫项目的路径，输入：scrapy startproject 项目名称（创建爬虫项目）
进入项目，输入：scrapy genspider 爬虫名字 “host 地址” （创建爬虫文件）
设置settings，在pycharm中设置

序号	步骤
（1）	设置 ROBOTSTXT_OBEY = False
	robots 协议讲解：https://blog.csdn.net/wz947324/article/details/80633668（有些网站不允许爬虫访问，若遵守机器人协议，则无法爬取）
（2）	开启 DOWNLOAD_DELAY = 3
	下载延时：DOWNLOAD_DELAY = 3，访问服务器过了3s再要数据，用于模拟用户访问
（3）	开启：DEFAULT_REQUEST_HEADERS = { ‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8’,‘Accept-Language’: ‘en’,}
	在此可以设置默认的请求头，删除原有内容
	设置：User-Agent:------
	设置：Cookie:------
（4）	开启：DOWNLOADER_MIDDLEWARES = { ‘zhaobiao（项目名称）.middlewares.ZhaobiaoDownloaderMiddleware’: 543,}
	下载中间件：配置代理 IP
（5）	开启：ITEM_PIPELINES = { ‘zhaobiao（项目名称）.pipelines.ZhaobiaoPipeline’: 300,}
	管道文件：指向 pipelines.py 文件
（6）	scrapy 项目的运行
	方法1：创建一个 start 文件：from scrapy import cmdline cmdline.execute('scrapy crawl bilian（爬虫文件名）.split()
	方法2：Terminal：cmdline.execute(‘scrapy crawl bilian（爬虫文件名）’.split())