python抓取淘宝评论_python3抓取淘宝评论内容

本文分享了如何通过不断尝试找到淘宝商品评论的有效爬取方法。作者详细介绍了使用调试工具定位评论数据位置的过程,并最终实现了对评论内容的成功抓取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

好久没有写爬虫了,今天研究了下淘宝商品评论的内容。

一开始用最简单的方法,挂代理,加请求头,对网页请求,是抓不到数据的,在网上找了一些相关文章,也基本已经过时了,就是网站逻辑有改动,用旧的方法是抓不到的。研究了一下,终于有了结果。

1. 百度->淘宝,进入官网

最后选择男装->西装,进入宝贝详情页。下面开始打开调试模式,快捷键Ctrl + Shift + i

2. 想办法找出评论内容所在地址。

先清空调试栏(点击如下):

然后刷新页面,Ctrl + R进行刷新。

下面就开始找评论在哪里。首先点击XHR,推测评论是有AJAX展示的,点击后发现不是。

再去Doc里面找找,也不是。那就从All里面一个一个找吧。

嘿,看到了一个东西,有点像:

坚持不懈地努力下,终于找到了:

下面对这个url进行解析,只要能请求出来,那就没问题了。

3. 首先,直接添加headers,是请求不到的。那怎么办呢?一点点试呗。

最后尝试到,将请求头,请求参数全部加上,然后携带cookie,才能获取到内容,很难受。

因为,实际生产中,一旦需要验证cookie,才能获取正确响应的网站,我个人是没有太好的解决方法,只要抓取过快,就会被封掉。

代码如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值