豆瓣图书数据爬取代码+selenium_图书销量数据资源-CSDN下载

共3个文件

py：3个

73 浏览量 2025-04-11 16:04:37 上传评论收藏 4KB ZIP 举报

在当今信息化时代，数据的重要性不言而喻，尤其在图书领域，获取准确的图书信息对于图书销售、推荐系统、图书分析等领域具有重要意义。爬虫技术便是在这样的背景下应运而生，它作为一种自动化工具，能够从互联网上自动收集并提取信息。而豆瓣作为国内知名的图书、电影、音乐社区网站，以其丰富的用户评论和评分系统，成为图书爱好者和研究人员的重要信息来源。然而，豆瓣并未提供官方API接口供用户批量下载图书数据，因此，使用爬虫技术进行数据抓取成为一种可行的解决方案。在实施爬虫的过程中，Selenium作为一种自动化测试工具，其功能在数据爬取领域得到了广泛应用。Selenium能够模拟用户操作浏览器的行为，从而绕过一些网站针对爬虫的反爬机制。尤其在豆瓣这样动态加载数据的网站上，Selenium能够有效模拟用户滚动页面、点击按钮等操作，从而获取动态加载的内容。本项目中提到的“豆瓣图书数据爬取代码+selenium”包括三个核心步骤：首先是爬取图书的分类标签，这部分代码通常负责定位豆瓣网站中不同图书分类的入口，并提取出分类标签，为后续的数据爬取提供索引。进行数据爬取，这一步骤涉及使用Selenium模拟用户行为，访问分类页或搜索结果页，提取出所需的图书信息，如书名、作者、出版社、出版日期、ISBN、评分以及评论数等。将爬取到的数据进行整合，并保存为csv文件，以方便后续的数据分析和处理工作。这些步骤所对应的文件名称分别为“1图书分类标签爬取.py”、“2数据爬取.py”和“3csv文件整合.py”。每个文件都是一个独立的Python脚本，其中包含了对应功能的实现代码。用户可以根据自己的需求，运行这些脚本，实现对豆瓣图书数据的自动化抓取。需要注意的是，在使用爬虫技术进行数据抓取时，应当遵守相关法律法规和网站的使用协议，合理设置爬虫的抓取频率和时间，避免对目标网站的正常运营造成影响。此外，对于抓取到的数据，应当尊重数据的版权和个人隐私，合法合规地使用。通过上述介绍，我们可以了解到，豆瓣图书数据的爬取是一个涉及技术手段和法律道德的综合过程。熟练掌握爬虫技术，尤其是Selenium的使用，能够帮助我们在遵守规则的前提下，高效地获取所需信息，为科研、商业等领域的决策提供数据支持。

资源推荐

资源详情

资源评论

收起资源包目录

豆瓣图书数据爬取代码.zip （3个子文件）

2数据爬取.py 5KB

3csv文件整合.py 3KB

1图书分类标签爬取.py 790B

import random import time from pathlib import Path import pandas as pd from selenium import webdriver from selenium.common import NoSuchElementException from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.ui import WebDriverWait def get_element_text(element, css_selector): """ 尝试查找元素并返回其文本内容，如果找不到则返回 None :param element: 要查找元素的父元素 :param css_selector: CSS 选择器 :return: 元素的文本内容或 None """ try: return element.find_element(By.CSS_SELECTOR, css_selector).text.strip() except NoSuchElementException: return None def get_element_attribute(element, css_selector, attribute): """ 尝试查找元素并返回其指定属性的值，如果找不到则返回 None :param element: 要查找元素的父元素 :param css_selector: CSS 选择器 :param attribute: 要获取的属性名 :return: 元素的属性值或 None """ try: return element.find_element(By.CSS_SELECTOR, css_selector).get_attribute(attribute) except NoSuchElementException: return None def process_subject(subject, category_name): """ 处理单个图书条目，提取相关信息 :param subject: 图书条目元素 :param category_name: 图书分类名称 :return: 包含图书信息的字典 """ url = get_element_attribute(subject, '.pic > .nbg', 'href') img_url = get_element_attribute(subject, '.pic > .nbg > img', 'src') name = get_element_attribute(subject, '.info > h2 > a', 'title') pub = get_element_text(subject, '.info > .pub') rating = get_element_text(subject, '.info > .star > .rating_nums') rating_count = get_element_text(subject, '.info > .star > .pl') plot = get_element_text(subject, '.info > p') buy_info = get_element_text(subject, '.info > .ft .buy-info > a') data_dict = { 'category_name': category_name, 'url': url, 'img_url': img_url, 'name': name, 'pub': pub, 'rating': rating, 'rating_count': rating_count, 'plot': plot, 'buy_info': buy_info, } return data_dict def process_category(driver, category_name, category_href): """ 处理单个图书分类，遍历该分类下的所有页面并提取图书信息 :param driver: 浏览器驱动 :param category_name: 图书分类名称 :param category_href: 图书分类链接 """ print(f"开始处理分类: {category_name}，链接: {category_href}") page = 0 while True: file_dir = f'./原始数据层/图书分类数据集/' file_name = f'{category_name}.csv' file_path = Path(file_dir + file_name) file_path.parent.mkdir(parents=True, exist_ok=True) # 构建当前页面的 URL url = category_href + f'?start={page * 20}&type=T' print(f"正在访问页面: {url}") driver.get(url) time.sleep(random.uniform(1, 3)) try: driver.find_element(By.CLASS_NAME, "subject-item") except NoSuchElementException: print(f"分类 {category_name} 页面加载完成，共处理 {page} 页") break # 等待所有图书条目元素加载完成 subject_list = WebDriverWait(driver, random.uniform(10, 20)).until( EC.presence_of_all_elements_located((By.CLASS_NAME, "subject-item")) ) data_list = [] for subject in subject_list: data_dict = process_subject(subject, category_name) data_list.append(data_dict) page += 1 df1 = pd.DataFrame(data_list) if file_path.exists(): df1.to_csv(file_path, mode='a', header=False, index=False) else: df1.to_csv(file_path, mode='w', header=True, index=False) time.sleep(random.uniform(1, 3)) def main(): # 读取图书分类标签 CSV 文件 df = pd.read_csv('./原始数据层/图书分类标签.csv') # 初始化浏览器驱动 driver = webdriver.Edge() time.sleep(random.uniform(1, 3)) driver.get('https://book.douban.com/tag/小说') time.sleep(60) for _, category in df.iterrows(): category_name = category['name'] category_href = category['href'] file_dir = f'./原始数据层/图书分类数据集/' file_name = f'{category_name}.csv' file_path = Path(file_dir + file_name) file_path.parent.mkdir(parents=True, exist_ok=True) if file_path.exists(): print(f"文件已存在，跳过：{file_dir + file_name}") continue process_category(driver, category_name, category_href) # 关闭浏览器驱动 driver.quit() if __name__ == '__main__': main()

评论收藏

内容反馈