✨ 一、前言
在科研、数据分析和AI研究过程中,arXiv.org 作为最重要的预印本平台之一,为全世界的研究者提供了前沿论文。作为数据科学爱好者,我们如何用 Python 编写一个高效、可扩展的爬虫系统,来抓取 arXiv 的论文信息和摘要内容?
本篇教程将带你一步步构建一个基于异步爬虫的高性能抓取框架,支持:
- 指定类别(如cs.AI、cs.CL等)和时间区间;
- 抓取论文标题、作者、摘要、提交时间;
- 存储为 CSV 或 SQLite;
- 自动处理翻页、反爬机制;
- 支持未来部署为API接口。
🧰 二、准备工作与技术选型
2.1 为什么不用 requests?
我们选择更现代的异步 HTTP 库 httpx
,它支持 asyncio
并发,有更强的性能。
2.2 技术栈概览
模块/技术 | 用途 |
---|---|
httpx |
异步 HTTP 请求 |
BeautifulSoup < |