scrapy_redis实现分布式爬虫

最新推荐文章于 2024-08-12 16:22:34 发布

原创最新推荐文章于 2024-08-12 16:22:34 发布 · 1.3k 阅读

CC 4.0 BY-SA版权

文章标签：

51 篇文章

订阅专栏

本文介绍如何使用Scrapy_redis实现分布式爬虫，包括分析代码、创建当当图书和亚马逊图书爬虫的具体步骤。掌握RedisSpider和RedisCrawlSpider的用法，以及在settings.py中的配置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目标

通过观察代码：

思路分析：

程序的入口

当当图书中，从大分类入手，还有一个中间分类，以及小分类，小分类对一个的地址就是列表页的地址

注意，url地址的响应和elements略微不同，其中不是每个大分类都在a标签中，中间部分分类不在span标签中
确定列表页的url地址和程序终止条件

存在下一页

不存在下一页
确定数据的位置

数据都在url地址对应的响应中，包括列表
完善spider

可以使用scrapy的方式创建爬虫，只需要把父类进行修改，添加redis_key

同时在settings.py中进行配置

和scrapy中的crawlspider的区别在于，继承自的父类不想听，redis_key需要添加

需求：抓取亚马逊图书的信息
目标：抓取亚马逊图书又有图书的名字、封面图片地址、图书url地址、作者、出版社、出版时间、价格、图书所属大分类、图书所属小的分类、分类的url地址
url：https://www.amazon.cn/%E5%9B%BE%E4%B9%A6/b/ref=sd_allcat_books_l1?ie=UTF8&node=658390051

思路分析：