scrapy分布式学习遇到的一个坑,暂未解决,先记录

该博客围绕使用Scrapy-Redis组件进行分布式网站爬取项目展开。介绍了运行环境搭建、爬虫文件和配置文件设置,以及执行爬虫工程的步骤。但项目中出现导包问题,尝试将项目根目录设为源和从特定目录导包均未解决,等待大佬指点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

项目需求, 使用分布式, 对某个网站进行爬取 , 然后把数据都一起传递到同一个 redis 仓库中, 使用的scrapy -redis 组件.
运行环境, 本地 用虚拟机 Centos7.7 搭建了redis ,项目中新建了一个 爬虫工程,
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

爬虫文件中, 在爬虫类中新增一个 redis_key 的属性, 进行数据解析,

在这里插入图片描述

配置文件中, 指定管道类和配置 redis 的服务器 信息,

准备执行爬虫工程, 需要去到 爬虫工程下的spiders 目录下,
执行 scrapy runspider xxx.py

视频里, 此时出现在监听状态, 然后我们在 redis客户端中 lpush redis_key xxx.com 就可以进行爬取了.

但是我的项目里, 出现了一个问题, 是关于导包的问题.

在这里插入图片描述

提示找不到文件.

个人尝试的解决:
按照网上百度的方法, 把项目根目录设置成源, 但是依然不管用.
在这里插入图片描述

我也试过从爬虫文件所属的那个目录进行导包, 比如我爬虫文件都是在 PlanceScrapy 中, 我 from PlaceScarpy.fbsPro.fbsPro.items import FbsproItem
此时执行爬虫工程, 报错的是 没有找到PlanceScarpy 这个目录 .

目前, 依然没有解决这个问题, 等待有大佬指点一下

视频里执行 scrapy runspider xxx.py 的命令是在 spiders 目录下的
在这里插入图片描述
在这里插入图片描述
我的目录也是在这里
在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值