基于DrissionPage的网页爬虫实现与分析

最新推荐文章于 2025-08-16 17:02:07 发布

Eqwaak00

最新推荐文章于 2025-08-16 17:02:07 发布

阅读量875

点赞数 12

CC 4.0 BY-SA版权

分类专栏： DrissionPage 爬虫文章标签： python 开发语言爬虫性能优化 DrissionPage

本文链接：https://blog.csdn.net/eqwaak0/article/details/149151151

爬虫同时被 2 个专栏收录

36 篇文章

订阅专栏

DrissionPage

17 篇文章

订阅专栏

本文将介绍一个使用Python和DrissionPage库实现的网页爬虫，该爬虫用于从"www.nyato.com"网站抓取展览信息并保存到CSV文件中。

爬虫概述

这个爬虫的主要功能是：

遍历网站的多个分页（共1312页）
从每个分页中提取展览列表
进入每个展览的详情页获取详细信息
将所有信息整理并保存到CSV文件中

技术栈

DrissionPage: 一个强大的网页自动化工具，结合了浏览器自动化和网络请求功能
fake_useragent: 用于生成随机User-Agent，模拟不同浏览器访问
re: 正则表达式模块，用于从URL中提取评分信息
random: 生成随机延迟，避免被网站封禁

代码结构分析

1. 保存功能

def save(long_str):
    try:
        with open(f"exhibition.csv", "a+", encoding="utf-8") as f:
            f.write(long_str)
    except Exception as e:
        print(e)

这个函数负责将抓取到的数据追加写入到"exhibition.csv"文件中。使用a+模式确保文件不存在时会创建，存在时则追加内容。

2. 详情页抓取

def get_detail(page, url):
    try:
        page.get(url)
        # 详细地址
        address_detail = page.ele("xpath://span[@class='fl mr10']").text
        # 时间间隔
        time_interval = page.ele("xpath://div[@class='h25 line25 s6 f14 w100s mb10']").texts()[3].strip()
        
        # 票价
        ticket_price = page.ele("xpath://b[@class='f40']").text
        # 匹配得分
        score_url = page.ele("xpath://div[@class='mt10']/img").attr('src')
        score = re.search(r"//static.nyato.cn/expo-image/stars/star-(\d\.\d).png", score_url).group(1)
        # 其它信息
        other = ",".join(page.eles("xpath://span[@class='sf6 f18 fwb ml15']").texts())
        return ticket_price, time_interval, address_detail, score, other
    except Exception as e:
        print("详情页BUG")
        print(url)
        time.sleep(4)
        return get_detail(page, url)

这个函数负责从详情页提取以下信息：

详细地址
展览时间
票价
评分（从图片URL中提取）
其他相关信息

如果遇到异常，会等待4秒后重试，实现了简单的错误处理机制。

3. 主运行逻辑

def run(page, url):
    try:
        page.get(url)
        # 获取所有li元素
        lis = page.eles("xpath://ul[@class='w980 pt20']/li")
        
        # 遍历li元素
        for li in lis:
            href = li.ele('xpath:.//a').attr('href')
            title = li.ele('xpath:.//a').attr('title')
            city = li.ele('xpath:.//span[@class='w120 fl']').text.strip()
            
            ticket_price, time_interval, address_detail, score, other = get_detail(page, href)
            long_str = f"{href},{title},{city},{ticket_price},{time_interval},{address_detail},{score},{other}\n"
            save(long_str)
    except Exception as e:
        print("列表页BUG")
        print(url)
        time.sleep(4)
        run(page, url)

主运行函数负责：

访问列表页URL
提取所有展览项目的li元素
对每个展览项目提取基本信息（链接、标题、城市）
调用get_detail获取详细信息
将所有信息组合成CSV格式并保存

同样实现了错误重试机制。

4. 主程序

if __name__ == '__main__':
    # 创建页面对象
    page = WebPage()
    
    # 生成URL列表
    urls = [f"https://www.nyato.com/manzhan/?type=expired&p={i}" for i in range(1, 1313)]
    
    for url in urls:
        print(f"正在抓取{url}")
        run(page, url)
        time.sleep(random.uniform(1, 3))  # 随机延迟避免被封

    print("全部爬取完毕")
    page.close()

主程序创建WebPage对象，生成1312个分页URL，然后依次处理每个URL，并在每次请求间添加1-3秒的随机延迟，以降低被封禁的风险。