scrapy分布式学习遇到的一个坑,暂未解决,先记录

最新推荐文章于 2021-07-28 11:09:40 发布

笔墨难染

最新推荐文章于 2021-07-28 11:09:40 发布

阅读量266

点赞数

CC 4.0 BY-SA版权

分类专栏：爬虫 python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45122740/article/details/111875953

python 同时被 2 个专栏收录

56 篇文章

订阅专栏

3 篇文章

订阅专栏

该博客围绕使用Scrapy-Redis组件进行分布式网站爬取项目展开。介绍了运行环境搭建、爬虫文件和配置文件设置，以及执行爬虫工程的步骤。但项目中出现导包问题，尝试将项目根目录设为源和从特定目录导包均未解决，等待大佬指点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

项目需求, 使用分布式, 对某个网站进行爬取 , 然后把数据都一起传递到同一个 redis 仓库中, 使用的scrapy -redis 组件.
运行环境, 本地用虚拟机 Centos7.7 搭建了redis ,项目中新建了一个爬虫工程,
在这里插入图片描述

爬虫文件中, 在爬虫类中新增一个 redis_key 的属性, 进行数据解析,

在这里插入图片描述

配置文件中, 指定管道类和配置 redis 的服务器信息,

准备执行爬虫工程, 需要去到爬虫工程下的spiders 目录下,
执行 scrapy runspider xxx.py

视频里, 此时出现在监听状态, 然后我们在 redis客户端中 lpush redis_key xxx.com 就可以进行爬取了.

但是我的项目里, 出现了一个问题, 是关于导包的问题.

在这里插入图片描述

提示找不到文件.

个人尝试的解决:
按照网上百度的方法, 把项目根目录设置成源, 但是依然不管用.
在这里插入图片描述

我也试过从爬虫文件所属的那个目录进行导包, 比如我爬虫文件都是在 PlanceScrapy 中, 我 from PlaceScarpy.fbsPro.fbsPro.items import FbsproItem
此时执行爬虫工程, 报错的是没有找到PlanceScarpy 这个目录 .

目前, 依然没有解决这个问题, 等待有大佬指点一下

视频里执行 scrapy runspider xxx.py 的命令是在 spiders 目录下的
在这里插入图片描述

我的目录也是在这里

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。