# Python
使用Python爬虫对sduoj和sdu官网进行爬取数据处理
本项目共分为3部分
3.1
1. 爬取 OJ 中的公开题目并保存,至少包含题目名称、题目 ID、通过数信息
2. 爬取 OJ 中的公开提交并保存,并分析出提交次数前 10、AC 次数前十的题目
• 爬取最近 2K 条即可,别干扰 OJ 正常使用1. 爬取 OJ 中的公开题目并保存,至少包含题目名称、题目 ID、通过数信息
2. 爬取 OJ 中的公开提交并保存,并分析出提交次数前 10、AC 次数前十的题目
• 爬取最近 2K 条即可,别干扰 OJ 正常使用
其中对应表格为3.1开头
3.2
1. 爬取 OJ 用户组中所有比赛中的所有题目并保存,至少应包含题目名称、题目 ID 信息
2. 在第一点的基础上,分析出自己未 AC 的题目
3. 爬取 OJ 用户组中最近 2K 条提交并保存
4. 在上述的基础上,分析某同学的提交数据,例如总提交数、AC 题目数等
3.2的文件为cookie文件
3.3
1. 爬取本科生院网站中的工作通知:工作通知,至少包含通知对应的 URL、通知标题、当前
爬取的时间
2. 对工作通知网页进行截图保存 PDF
3. 自动对每一个通知网页进行截图,并保存网页的 PDF 版本,命名应具有通知标题和爬取
到的时间点
3.3的文件为3.3开头,储存的PDF放在截屏这一文件下

JJJ69
- 粉丝: 6461
最新资源
- Java程序设计方案类和对象的使用.doc
- 企业人力资源管理的信息化建设措施探微.docx
- 区块链技术将助力机场能源管理新发展.docx
- 数字信号处理MATLAB实验.doc
- 高语言程序设计习题及答案.doc
- win操作系统课件.ppt
- 基于区块链技术的众创空间发展困境及对策分析.docx
- 某高校计算机等级考试系统的实现.doc
- 电气控制与PLC.ppt
- SC-Safety:中文大模型多轮对抗安全评估基准
- 多媒体教学在中职计算机教学中的应用探讨.docx
- 改进的PID控制算法研究.doc
- 公需科目:物联网技术与应用考试试卷(答案是系统给出的正确答案).doc
- 电网企业施工项目管理及成本控制.docx
- 浅议网络消费者的法律保护.doc
- 微软模拟飞行FSX塞斯纳c172仪表自动本场五边飞行教程.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈


