爬虫小案例-爬取当当网TOP500的图书并将数据存入数据库

最新推荐文章于 2025-06-17 09:22:04 发布

代码邮递员

最新推荐文章于 2025-06-17 09:22:04 发布

阅读量2.8k

点赞数 9

CC 4.0 BY-SA版权

文章标签：数据挖掘爬虫 python xpath mysql

本文链接：https://blog.csdn.net/weixin_44936388/article/details/117586294

在这里插入图片描述

在这里分享一个刚刚学习爬虫时自己做的一个小案例，爬取了当当网TOP500的图书信息，包括图书名称、作者名称和出版社的名称。

1.分析网页

url：http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-1
首先，我们在浏览器里输入以上这个网址这个网址，进入到我们本次将要爬取的网页，然后鼠标右键点击检查。在这里插入图片描述
使用抓包工具，得到将要爬取的数据所在的位置。
解析图书名称的xpath解析式:

//ul/li/div[@class='name']/a/@title

获取图书作者xpath解析式：

//ul/li/div[@class='publisher_info']/a[1]/@title

获取出版社的xpath解析式：

//ul/li/div[@class=

最低0.47元/天解锁文章

新学期VIP享超值加赠

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

代码邮递员

关注关注

9
点赞
踩
36

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

当当网数据爬取

Chloris_的博客

11-28

1367

##尝试爬取当当网上的各种信息 import requests from bs4 import BeautifulSoup import time import json header = {"Referer":"http://search.dangdang.com/?key=python&%253Bact=input&%253Bpage_index=%7B%7D&_ddclickunion=P-295132-199857_64_0_ZGljdHNfZ29vZ2xl_1%7Cad.

pipelines mysql_Scrapy爬取豆瓣图书数据并写入MySQL

weixin_31621945的博客

01-28

319

介绍本篇涉及的内容主要是获取分类下的所有图书数据，并写入MySQL准备Python3.6、Scrapy、Twisted、MySQLdb等演示代码一、创建项目scrapy startproject BookSpider #创建项目scrapy genspider douban book.douban.com #创建豆瓣爬虫二、创建测试类(main.py)from scrapy.cmdline im...

1 条评论您还未登录，请先登录后发表或查看评论

基于 XPath 的当当网图书信息爬虫实践

最新发布

pengp_123的博客

06-17

2285

python运行# 请求头：模拟浏览器身份，绕过基础反爬Win64;products = [] # 存储图书数据的“容器”，每个元素是一本图书的信息字典max_retries = 5 # 请求重试次数上限，应对网络波动、短暂封禁参数设计考量keyword需提前做 URL 编码（如 “大数据” 转），贴合当当网搜索接口规则；pages设置默认值 2，既满足简单采集需求，又支持灵活扩展爬取深度。headers的隐藏作用：除模拟浏览器，部分网站会校验User-AgentReferer。

python爬虫写入数据库_python网络爬虫抓取动态网页并将数据存入数据库MySQL

weixin_39696518的博客

11-21

286

简述以下的代码是使用python实现的网络爬虫，抓取动态网页 http://hb.qq.com/baoliao/ 。此网页中的最新、精华下面的内容是由JavaScript动态生成的。审查网页元素与网页源码是不同。以上是网页源码以上是审查网页元素所以此处不能简单的使用正则表达式来获取内容。以下是完整的获取内容并存储到数据库的思路及源码。实现思路：抓取实际访问的动态页面的url – 使用正则表达式获取...

Scrapy爬取当当网畅销图书保存csv格式！最详细的教程！

pythonlaodi的博客

12-03

2876

1. 概述刚刚收到了两个消息，一个好消息，一个坏消息。先说好消息，好消息就是微信群里有人要发红包，开心~ 不过转念一想，前几次的红包一个都没抢到，这次？？？不由自主的叹了一口气 ... 过了一会，内心的情绪逐渐平复了。心想：“难道就这么放弃了吗？晚饭还吃泡面（泡面感觉有被冒犯到）？但是手动抢肯定没戏，毕竟手can谁也没办法！那就只能试试能不能通过编程的方式实现自动化抢红包了！” 现在捋一下思路，微信群发红包的基本情况是：每一次发红...

使用scrapy创建爬虫爬取读书网图书信息存入mysql

qq_45803593的博客

01-12

917

简述需求：读书网数据入库环境：python3.7，pycharm 脚本需求：scrapy、pymysql 操作 1.下载scrapy pip install scrapy 2.创建项目：scrapy startproject dushu 3.跳转到 spiders 路径 cd\dushu\dushu\spiders 4.创建爬虫类：scrapy genspider ‐t crawl read www.dushu.com 5.items（实体类） import scrapy class ScrapyD

【爬虫】爬取当当网的图书信息

Hello, World

10-30

2503

当当网图书信息爬虫

Python爬虫实战+Scrapy框架爬取当当网图书信息

qq_45821420的博客

11-22

5293

1、环境准备 1、在python虚拟环境终端使用 pip install scrapy下载scrapy依赖库 2、使用scrapy startproject book创建scrapy心目工程 3、使用scrapy genspider dangdang dangdang.com创建spider爬虫实例 2、代码实操 dangdang.py文件内容 import urllib.parse from copy import deepcopy import scrapy class DangdangS

python爬虫实战1-获取当当网近30日好评榜前500本书籍

u010376229的博客

02-24

1317

1、首先打开当当网，点击好评榜，选择近30日，此时浏览器中的URL复制一下，备用 http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-1 2、每一页显示20本书，点击下一页可以发现URL变化了，但是只有最后一个数变化，http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-2，对应页数 3、F12打开开发者工具，

【爬虫】4.5 实践项目——爬取当当网站图书数据

热门推荐

Jack

06-13

1万+

Scrapy框架+Xpath信息提取方法设计商城（这里用的当当网）商品信息网站及爬虫程序，以关键字“书包”（python）搜索页面的商品，爬取（学号相关的特定某几个页面（最后一位，页面大于3）及限定数量商品（最后3位））商品信息。1. 功能描述2. 程序的结构设计下面两个特定数量爬取写了两个管道 pipelines_1.py, pipelines_2.py。

爬取当当网 Top 500 本五星好评书籍

南淮北安的博客

08-18

1377

文章目录一、分析页面确定需要获取的信息二、实现爬取代码一、分析页面确定需要获取的信息页面通过控制 URL 的最后一个参数，实现分页确定我们想要获取的信息：排名、书名、图片地址、作者、推荐指数、五星评分次数、价格通过审查元素，确定怎么得到这些信息（正则） 3.确定思路使用 page 变量实现分页，使用request 请求当当网，对返回的 HTML 进行正则解析，解析之后的内容存到文...

爬取当当网TOP500图书数据.py

06-05

xpath解析爬取当当网TOP500的图书数据。

Java爬虫入门案例，Java爬虫爬取豆瓣图书教程并存储到数据库中(HttpClient+Jsoup+Jackson+Mybatis)

给我一个姑娘的博客

10-10

1826

Java简单爬虫入门案例所需知识： HttpClient + Jsoup, HttpClient用于模拟发起请求，Jsoup用于解析，虽然Jsoup可以发起请求，但HttpClient拥有线程池等，可以自定义配置，因此我们一般采用HttpClient发起请求，Jsoup仅用于解析html页面。业务需求简单爬取到豆瓣图书的选影视模块前100本，并将图书的基本信息爬取下来存储中数据库中（mysql） https://movie.douban.com/tag/#/ 目标网址思路分析打开这个网址我们

爬虫百战（一）：爬取当当网Top500本五星好评书籍

shy-2的博客

04-27

3076

爬取当当网Top500本五星好评书籍==实战前提：==准备工作撸代码成果展示实战前提：掌握requests库的使用熟悉re库，正则表达式的简单使用可参考我的另外两篇博客进行学习准备工作 1.打开当当网书籍排行榜的网址：五星图书排行榜打开之后可以看到：可以发现：每一页显示二十本书点击下一页发现地址发生改变：第二页 http://bang.dangdang.com/boo...

Python简单爬取图书信息及入库

echohye的博客

01-04

1950

为了完成课堂作业~~~

Python爬取当当网APP数据

Python案例分享，B站视频教程：https://space.bilibili.com/523606542

10-21

1402

目标场景：有时候通过传统的方法去爬一些 Web 网页或者 APP，受限于对方的反爬方案，很难爬到想要的数据，这个时候可以考虑使用「Appium」结合「mitmproxy」的方式去爬取数据。其中，Appium 负责驱动 App 端自动化运行，mitmproxy 负责截取请求数据并解析保存到数据库。今天的目的是爬取「当当网」的所有数据，并保存到 MongoDB 数据库当中。准备工作首先，需要在 PC 上安装好 Charles 和 Appium Desktop，并配置好 mitmpr.

Python爬虫 BeautifulSoup抓取网页数据并保存到数据库MySQL

aasdsjk的博客

05-24

4770

最近刚学习Python，做了个简单的爬虫，作为一个简单的demo希望帮助和我一样的初学者代码使用python2.7做的爬虫抓取51job上面的职位名，公司名，薪资，发布时间等等直接上代码，代码中注释还算比较清楚，没有安装mysql需要屏蔽掉相关代码：#!/usr/bin/python # -*- coding: UTF-8 -*- from bs4 import BeautifulSo...

Python爬虫——当当网玄幻书籍信息的爬取

MrPandada的博客

10-19

1613

使用python语言，scrapy框架爬取当当网书籍等相关信息。是对scrapy框架实战基础的认识，最详细的巩固scrapy框架使用流程。

当当网图书数据爬取，分页爬取，多个分类爬取

2401_86953479的博客

10-17

623

解析网页，提取书籍的链接、图片、名称、评论、推荐语、作者、出版时间、出版社、价格等信息。每个分类爬取20到26页的内容。发送带有模拟浏览器请求头的GET请求，爬取多个书籍分类的畅销书页面（如小说、文学、童书等）。文件中，遇到解析失败时跳过异常，继续处理下一条数据。：访问每本书的详情页，爬取更多详细信息如书籍描述。：将爬取的数据格式化并保存到。

使用Scrapy爬虫高效爬取当当网图书数据

本项目旨在通过编写爬虫程序，自动化地获取当当网图书网站的数据，并将数据存储于本地。在这一过程中，我们将使用两个主要的Python库：Scrapy和BeautifulSoup。这些工具在爬虫技术中占据着核心地位，它们分别负责...