没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论





格式:docx 资源大小:321.3KB 页数:7



格式:zip 资源大小:12.7MB


格式:pptx 资源大小:1.1MB 页数:15

















格式:pptx 资源大小:3.0MB 页数:19




分布式爬虫与多机作业监控系统设计
David @ 2018.05

背景
场景,技术选型的难题
确定方向的选型: APM 选型 , Zipkin/Cat/Pinpoint/Skywalking, 还有
jaeger
方案具有延展不确定性的选型:微服务 API 网关 , Kong/Zuul/Nginx,
lstio ?
要解决的问题
搜索 / 浏览 Github 项目时,自动推荐同类 + 相关项目
爬取数据 + 自动推荐
爬虫
爬取 Github 的用户数据,项目数据

爬虫的问题
爬虫
调用 Github API, API 速度限制,搜索 30 次每分钟,其他 5000 次每小时
用户数据,项目数据,用户收藏的项目数据
用户数据量: 2000w+, 项目数据: 2000w+
总量预估:保守估计平均一个项目 20 个 star , 2000w * 20 约 4 亿数据量
问题:
上亿的用户收藏项目数据, star 数据 30 条一页:
需要发起 2000w + 2000w + 40000/30w 的 API 请求
API 调用最多 5000 个请求每小时
需要的时间: 5333 * 10000/5000 = 10666 小时 = 444 天 (保守估计)

数据筛选
用户数据怎么取?
项目数据怎么取?
用户与项目的收藏关系
用户收藏的项目数据?
或者项目被用户收藏的数据?
剩余20页未读,继续阅读
资源评论


davidullua
- 粉丝: 190
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 电力信息化管理的现状及对策分析.docx
- 安徽省计算机一级考试试题库及答案.doc
- 软件工程导论(第六版)课后习题答案.doc
- 新形式下计算机辅助翻译实验室建设探究.docx
- litemall-移动应用开发资源
- 谈电气工程中自动化技术的运用.docx
- 深度学习在超分辨率图像重建中的应用.docx
- 移动互联网背景下计算机翻转课堂教学的探讨.docx
- ppt课件:商务科技人工智能总结汇报类PPT模板.pptx
- 软件工程习题汇锦.doc
- 第5章Linux系统启动过程.ppt
- 互联网+下公共图书馆的图书资料管理探究.docx
- 某某省通联县水产良种场建设项目管理-.doc
- 临床微生物实验室自动化建设.ppt
- 微机原理与接口课程设计温度测量.doc
- 《软件测试技术》知识点.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
