项目简介
目前需要自己写爬虫!!!只预留了信息传输和存入
这个项目最初是为了解决日常工作中需要频繁查看多个网站公告的痛点而开发的。通过自动化的方式,系统可以定期爬取目标网站,筛选出包含特定关键词的信息,并及时推送到指定邮箱,提高了我的信息获取的效率。
爬虫配置管理
提供了配置爬虫:
- 添加目标网站
- 设置爬取频率
- 配置关键词
结果展示与管理
- 显示爬取结果
- 支持按时间、来源、关键词等多维度筛选
- 提供搜索功能快速定位信息
邮件推送
- 配置多个收件人
- 推送历史记录查看使用场景
使用场景
- 政府公告监控: 自动爬取政府网站的政策公告、招标信息等
- 行业资讯收集: 监控行业网站的最新动态和新闻
- 竞品信息追踪: 关注竞争对手的产品更新和市场动态
- 学术信息获取: 追踪学术会议、期刊的最新发表
注意事项
- 请遵守目标网站的robots.txt协议
- 合理设置爬取频率,避免对目标网站造成压力
- 仅用于合法的信息收集用途
后续计划
虽然目前系统已经能够满足基本需求,但仍有许多可以改进的地方:
- 增加更多的通知渠道(微信、钉钉等)
- 添加数据分析和可视化功能
- 优化爬虫性能,支持分布式部署
- 后续有空可能会在前端加上爬虫配置,做成具有局部通用性的爬虫
结语
这是一个个人开发的小工具,代码实现以实用为主,可能不够规范和完善。如果您在使用过程中遇到问题,或者有新的需求,欢迎通过邮件联系:uikumail@yeah.net。我会在空闲时间处理bug修复和根据需求做小幅度的功能改进。
不喜勿喷,有问题欢迎指出
项目地址:nannannany/crawler-system-vue3: crawler-system前端文件https://github.com/nannannany/crawler-system-vue3 nannannany/crawler-system-flask: crawler_system后端
https://github.com/nannannany/crawler-system-flask
如果这个项目对您有帮助,欢迎Star支持!