Python爬取动态加载的网站图片

最新推荐文章于 2024-03-14 22:27:52 发布

原创

最新推荐文章于 2024-03-14 22:27:52 发布 · 3.4k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍了如何使用Python爬取动态加载的网站，以堆糖网为例，讲解了分析动态网站的方法，通过检查网络请求找到JSON数据源，并利用JSON解析工具获取图片URL，最终实现图片的下载。核心在于理解动态加载原理和正确解析JSON数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一篇爬取的是静态网页，静态图片的网站，说实话，是最简单的，今天咱们就爬取一下动态的网站。
话不多说，目标网址：堆糖网
https://www.duitang.com/search/?kw=%E6%A0%A1%E8%8A%B1&type=feed

我们先分析一下网站，发现这个网站的网址没有翻页的，每当鼠标往下滑的时候，每滑到一定数量的图片的时候会再次加载新的图片，这是怎么回事呢? 其实这个就叫动态网站,动态网站最重要的不是写代码，而是分析网站，找到数据存放的真正位置。

既然知道这个是动态网站，咱们就要用到检查（F12）了，右键-检查，或者直接按F12，点击netwrok,然后再点击XHR

在这里插入图片描述
你会发现里面是空白的，怎么搞？很简单，刷新或者按F5就可以了。
但是刷新后还是没有？怎么办？呵呵，你把网页往下拉，就出来了

这个就是我们需要爬取的真正网址，如果你继续往下拉，会发现有很多类似的这种网址，你可以尝试找找这些网址的不同之处

现在我们开始分析这个网站，直接看图（打字好累…）
在这里插入图片描述
按照上面的步骤就能看到图片真正存放的地方，发现这是json格式的，我们要怎么解析呢？这里给你们介绍个免费的json解析网站：https://www.json.cn/

首先把这个网址复制、然后打开一个新的窗口，粘贴，再把里面的内容复制，然后在粘贴进上面那个网站即可，emmmmm… 简单点就是复制、粘贴，不出意外你就能看到图片的地址啦

解析完毕，开始咱们的代码：

import requests

url = "https://www.duitang.com/napi/blog/list/by_search/?kw=校花&type=feed&start=0" 

headers = {
   
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3760.400 QQBrowser/10.5.4083.400'
}

res = requests.get(url,headers=headers).json(