项目需求, 使用分布式, 对某个网站进行爬取 , 然后把数据都一起传递到同一个 redis 仓库中, 使用的scrapy -redis 组件.
运行环境, 本地 用虚拟机 Centos7.7 搭建了redis ,项目中新建了一个 爬虫工程,
爬虫文件中, 在爬虫类中新增一个 redis_key 的属性, 进行数据解析,
配置文件中, 指定管道类和配置 redis 的服务器 信息,
准备执行爬虫工程, 需要去到 爬虫工程下的spiders 目录下,
执行 scrapy runspider xxx.py
视频里, 此时出现在监听状态, 然后我们在 redis客户端中 lpush redis_key xxx.com 就可以进行爬取了.
但是我的项目里, 出现了一个问题, 是关于导包的问题.
提示找不到文件.
个人尝试的解决:
按照网上百度的方法, 把项目根目录设置成源, 但是依然不管用.
我也试过从爬虫文件所属的那个目录进行导包, 比如我爬虫文件都是在 PlanceScrapy 中, 我 from PlaceScarpy.fbsPro.fbsPro.items import FbsproItem
此时执行爬虫工程, 报错的是 没有找到PlanceScarpy 这个目录 .
目前, 依然没有解决这个问题, 等待有大佬指点一下
视频里执行 scrapy runspider xxx.py 的命令是在 spiders 目录下的
我的目录也是在这里