Python爬虫——刚学会爬虫，第一次实践就爬取了《长津湖》影评数据

最新推荐文章于 2024-11-24 22:55:06 发布

原创

最新推荐文章于 2024-11-24 22:55:06 发布 · 1.4k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

本文记录了一位Python新手利用爬虫技术，成功抓取《长津湖》电影评论数据的过程。文章详细阐述了数据采集阶段如何应对反爬策略，通过伪装成普通用户来解决问题，并将获取的数据以JSON格式写入文件。后续进行了数据清洗，整理后存入CSV文件，供进一步分析使用。

思路：

数据采集
清洗入库
分析处理

1. 数据采集

接口地址

https://m.maoyan.com/mmdb/comments/movie/257706.json?_v_=yes&offset=15&startTime=

解析地址：

257706 代表电影ID 长津湖

offset=15 代表：每次加载多少条数据15条

startTime：从什么时间段开始加载

API_URL = "https://m.maoyan.com/mmdb/comments/movie/{movie_id}.json?_v_=yes&offset=15&startTime={last_time}"

# 获取长津湖 的最新的评论数据

url = API_URL.format(movie_id=257706, last_time="")
print(url)

# 获取较早期的  评论数据
url = API_URL.format(movie_id=257706, last_time="2021-10-05 13:01:10")
print(url)