实战前提:
掌握requests库的使用
熟悉re库,正则表达式的简单使用
可参考我的另外两篇博客进行学习
准备工作
1.打开当当网书籍排行榜的网址:
五星图书排行榜
打开之后可以看到:
可以发现:
每一页显示二十本书
点击下一页发现地址发生改变:
第二页
http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-2
我们可以在python中设置一个变量里来实现获取不同页数的内容
2.分析网页的请求和响应操作
鼠标右键点击检查
或按F12,进入以下页面:
我们可以看到我们的请求头,还可以看到服务器返回来的数据:
3.分析我们将要抓取的关键信息
我们要的就是前500本书的
排名
书名
图片地址
作者
推荐指数
五星评分次数
价格
通过源码我们可以看到这些信息都被放在
- 标签中: