爬虫百战(一):爬取当当网Top500本五星好评书籍

爬取当当网Top500本五星好评书籍

实战前提:

掌握requests库的使用
熟悉re库,正则表达式的简单使用
可参考我的另外两篇博客进行学习

准备工作

1.打开当当网书籍排行榜的网址:
五星图书排行榜

打开之后可以看到:
在这里插入图片描述
在这里插入图片描述
可以发现:

每一页显示二十本书

点击下一页发现地址发生改变:
第二页

http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-2

我们可以在python中设置一个变量里来实现获取不同页数的内容

2.分析网页的请求和响应操作
鼠标右键点击检查或按F12,进入以下页面:
在这里插入图片描述
我们可以看到我们的请求头,还可以看到服务器返回来的数据:
在这里插入图片描述
3.分析我们将要抓取的关键信息
在这里插入图片描述
我们要的就是前500本书的

排名
书名
图片地址
作者
推荐指数
五星评分次数
价格

通过源码我们可以看到这些信息都被放在

  • 标签中:
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值