Python Scrapy爬虫实战：创建项目与基础爬虫 - CSDN文库

PDF文件

下载需积分: 5 | 218KB | 更新于2024-08-03 | 122 浏览量 | 举报收藏

立即下载

"这篇教程详细介绍了如何使用Python的Scrapy框架创建爬虫项目。Scrapy是一个强大的、专门用于网络爬取的Python框架，适合构建复杂的爬虫系统。文章首先讲解了如何在终端环境下创建Scrapy项目，强调了尽管初期可能会遇到困难，但通过终端操作能更好地学习和理解框架的工作原理。在创建Scrapy项目时，首先需要切换到合适的目录，然后使用`scrapy startproject`命令创建一个新的项目。在这个例子中，项目被命名为`todayMovie`。接着，`tree`命令用来展示项目文件夹的结构，显示各个子文件和子目录。如果`tree`命令未安装，可以通过`apt-get install tree`进行安装。创建完项目后，使用`scrapy genspider`命令可以快速生成一个基础爬虫。在这个实例中，创建了一个名为`wuHanMovieSpider`的爬虫，目标网站是`mtime.com`。`scrapy genspider`命令的用法也进行了简要说明。文章接着介绍了Scrapy项目的文件结构，包括基础爬虫脚本的位置和作用。通常，Scrapy项目会包含以下几个关键部分： 1. `spiders`目录：存放爬虫代码的地方，每个爬虫是一个单独的Python类。 2. `items.py`：定义要抓取的数据结构，类似数据模型。 3. `pipelines.py`：处理爬取到的数据，例如清洗、验证、存储等。 4. `settings.py`：配置Scrapy的行为，如中间件、下载延迟等。 5. `middlewares.py`：定义中间件，实现自定义的爬虫逻辑，如处理请求和响应。 6. `logs`和`items`目录：分别用于存储日志文件和已爬取的项目数据。 Scrapy的爬虫流程大致如下： - 爬虫启动，根据配置的起始URL发起请求。 - 中间件处理请求和响应。 - 解析响应内容，通常是HTML或XML，提取所需的数据。 - 将提取的数据与`items`对象关联。 - 数据通过`pipelines`进行处理，如存储到数据库或文件。 - 继续跟随页面中的链接发起新的请求，直到达到预设的停止条件。通过学习Scrapy，开发者可以构建高效且可扩展的网络爬虫，实现自动化数据抓取，广泛应用于数据分析、市场研究、信息监控等领域。对于初学者来说，理解并实践Scrapy的这些基本操作是至关重要的，随着经验的增长，可以逐步探索更高级的特性和应用场景。"

pythonscrapy爬⾍实例_Python爬⾍：Scrapy实例（⼀）

原标题：Python 爬⾍：Scrapy 实例(⼀)

1、创建Scrapy项⽬

似乎所有的框架，开始的第⼀步都是从创建项⽬开始的，Scrapy也不例外。在这之前要说明的是Scrapy项⽬的创建、配置、运⾏……默认

都是在终端下操作的。不要觉得很难，其实它真的⾮常简单，做填空题⽽已。如果实在是⽆法接受，也可以花点⼼思配置好Eclipse，在这

个万能IDE下操作。推荐还是在终端操作⽐较好，虽然开始可能因为不熟悉⽽出现很多错误，错多了，通过排错印象深刻了，也就⾃然学会

了。打开Putty连接到Linux，开始创建Scrapy项⽬。执⾏命令：

cd

cd code/scrapy/

scrapy startproject todayMovie

tree todayMovie

执⾏结果如图1所⽰。

图1 创建todayMovie项⽬

tree命令将以树形结构显⽰⽂件⽬录结构。tree命令默认情况下是没有安装的，可以执⾏命令apt-get install tree来安装这个命令。

这⾥可以很清楚地看到todayMovie⽬录下的所有⼦⽂件和⼦⽬录。⾄此Scrapy项⽬todayMovie基本上完成了。按照Scrapy的提⽰信息，

可以通过Scrapy的Spider基础模版顺便建⽴⼀个基础的。相当于把填空题打印到试卷上，等待填空了。当然，也可以不⽤Scrapy命令建⽴

基础，如果⾮要体验⼀下DIY也是可以的。这⾥我们还是怎么简单怎么来吧，按照提⽰信息，在该终端中执⾏命令：

cd todayMovie

scrapy genspider wuHanMovieSpider mtime.com

执⾏结果如图2所⽰。

图2 创建基础爬⾍

⾄此，⼀个最基本的项⽬已经建⽴完毕了，它包含了⼀个Scrapy所需的基础⽂件。到这⼀步可以说填空题已准备完毕，后⾯的⼯作就纯粹

是填空了。图2中第⼀⾏⽂字scrapy genspider是⼀个命令，也是Scrapy最常⽤的⼏个命令之⼀，它的使⽤⽅法如图3所⽰。

图3 scrapy genspider命令帮助

因此，刚才的命令意思是使⽤scrapy genspider命令创建⼀个名字为wuHanMovieSpider的爬⾍脚本。这个脚本搜索的域为

mtime.com。

2、Scrapy⽂件介绍

Scrapy项⽬的所有⽂件都已经到位了，如图2所⽰，下⾯来看看各个⽂件的作⽤。⾸先最顶层的那个todayMovie⽂件夹是项⽬名，这个没

什么好说的。

在第⼆层中是⼀个与项⽬同名的⽂件夹todayMovie和⼀个⽂件scrapy.cfg，这⾥与项⽬同名的⽂件夹todayMovie是模块(也可以叫做包

的)，所有的项⽬代码都在这个模块(⽂件夹或者叫包)内添加。⽽scrapy.cfg⽂件，顾名思义它是整个Scrapy项⽬的配置⽂件。来看看这个

⽂件⾥有些什么。Scrapy.cfg⽂件内容如下：

1 # Automatically created by: scrapy startproject

2 #

3 # For more information about the [deploy] section see:

5

下载后可阅读完整内容，剩余7页未读，继续阅读

开通会员，免费下载（低至0.43元/天)

left

成为会员后, 你将解锁

right

下载资源随意下

优质VIP博文免费学

优质文库回答免费看

付费资源9折优惠

zz_ll9023one

粉丝: 923

最新资源