python爬虫练习之爬取豆瓣读书所有标签下的书籍信息

该博客介绍了使用Python爬虫进行豆瓣读书网站的爬取,主要内容包括获取所有图书标签和分类,并用字典存储。目前分享了如何解析页面,包括BS4库和正则表达式(re)的应用,但内容尚未完整。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一步,爬取所有图书标签及分类

到达图书标签页,分类浏览,第一步需要爬取所有分类及其分类下的所有标签
并用dict存储

豆瓣图书标签的链接

这里写图片描述

需要解析的内容
这里写图片描述

1.bs4解析

import requests
from bs4 import BeautifulSoup

url = 'https://book.douban.com/tag/?view=type'
tag_dict = {}

def get_dict():             #接口,提供这个标签字典
    return tag_dict

r = requests.get(url)
soup = BeautifulSoup(r.text,'lxml')
title = soup.select('div div a h2')     #第一步找到h2标签,因为更细致,a标签就找不到
#然后通过h2标签找到爷爷级标签,就是div盒子了
for i in title:
    a = i.find_parent()     #找到父亲a标签
    div = a.find_parent()   #找到父亲div
    tag_title = a.select('h2')[0].get_text()[:2]    #找到h2标签取出内容并切片取出前两个字
    tags = div.select('tr td a')    #找到td中的a标签
    tag_list = []
    for j in tags:
        tag_list.append(j.get_text())   #循环取出a标签中的内容
    tag_dict[tag_title] = tag_list

for i in tag_dict:
    print(i+':',end='')
    print(tag_dict[i])
-------------------------------------------------------------------------------
文学 ['小说', '外国文学', '文学', '随笔', '中国文学', '经典', '日本文学', '散文', '村上春树', '诗歌', '童话', '儿童文学', '古典文学', '王小波', '名著', '杂文', '余华'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值