python爬虫之xpath解析之爬取图片

最新推荐文章于 2024-12-31 22:00:16 发布

杂记铺

最新推荐文章于 2024-12-31 22:00:16 发布

阅读量1.3k

点赞数 14

CC 4.0 BY-SA版权

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/qq_55829395/article/details/139481841

python爬虫之xpath解析之爬取图片

爬取图片网址为：图片
对应图片网站源码为下面所示。图片存于li标签中。在这里插入图片描述
爬取代码如下：

#需求：解析下载图片数据 https://pic.netbian.com/4kdongman/
import requests
from lxml import etree
import os
if __name__ == '__main__':
    url = 'https://pic.netbian.com/4kdongman/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Mobile Safari/537.36 Edg/116.0.1938.76'
    }
    response = requests.get(url=url,headers=headers)
    #手动设定响应数据的编码格式
    # response.encoding = 'utf-8'
    page_text = response.text

    # 数据解析：src的属性值
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//div[@class="slist"]/ul/li')
    if not os.path.exists('./picLibs'):
        os.mkdir('./picLibs')
    for li in li_list:

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

杂记铺

关注关注

14
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

手把手教你使用python爬虫之xpath

景天科技苑

12-29

1万+

xpath表达式如何理解？html中的标签是遵从树状结构的。切记:xpath表达式中最好不要出现tbody标签，因为tbody标签可能是浏览器加的，可以通过查看网页源代码判断是否是真实的tbody！tbody可能是源代码自带的，也有可能是浏览器添加的可以通过右键，查看页面源代码，确定tbody是不是浏览器添加的，如果源代码中有tbody，那就时源代码中包含的如果没有那就是浏览器添加的使用方法。

Python爬虫练习-Xpath解析图片爬取

零源的博客

05-08

583

import os import requests from lxml import etree if __name__ == '__main__': # UA伪装 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.70 Safari/537.36' } # 指.

参与评论您还未登录，请先登录后发表或查看评论

xpath 爬取图片

xiyucai_cai的博客

06-28

1419

爬去图片 import requests import re from lxml import etree from urllib3 import request# 页数def page(url,totalpage): changepage=[] for i in range(1,totalpage+1): page_number=re.sub

python使用xpath批量爬取图片

weixin_51420405的博客

05-28

1121

import requests from lxml import etree import os if __name__ == '__main__': # 创建文件夹存放照片 if not os.path.exists("./day07图片解析-素材"): os.mkdir("./day07图片解析-素材") # UA伪装 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WO.

python爬虫系列：xpath爬取图片讲解（零基础向）

热门推荐

AuroBreeze的博客

06-23

1万+

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学...

用Python的xpath模块学习抓取图片

littlespider889的博客

05-25

297

大家好，我是天空之城，今天带来一个小福利，教大家用python抓取妹子图。话不多说，上代码。 import requests,re,lxml from lxml import etree class Spider(object): def __init__(self): self.headers = { 'Referer': 'https://www.mzitu.com', 'User-Agent': 'Mozilla/5.0 (Wi

基础爬虫之xpath爬取图片

ZHU1640182189的博客

05-18

1259

Element对象，然后进行xpath路径截取，存储在一个列表中，然后进行一个for循环遍历列表，得到图片对应的页面源码。表达的就是在这个页面下的class叫ibox2 all的div下的ul下的li元素，包含着所有的ul下的li。Step4:运用xpath方法对图片的url进行截取然后进行请求，并转换成二进制文件，然后进行持续化存储。Step3:使用etree中的HTML方法对字符串格式的源码进行转换，得到一个可以被xpath识别的。一、什么是xpath？(欢迎大神指导菜鸡)

python爬虫-爬虫项目实战之爬取唯一图库女神校花图片.zip

03-07

本项目实战主要关注如何使用Python爬虫技术来抓取网络上的特定资源，即“唯一图库”中的女神校花图片。在这个过程中，我们将探讨Python爬虫的基本原理、常用的库以及实际操作步骤。首先，Python爬虫的核心在于模拟...

基于python爬虫对百度贴吧进行爬取的课程设计.zip

12-08

Python爬虫是一种自动化工具，用于从互联网上提取大量信息，而百度贴吧是中国最大的网络社区之一，拥有丰富的用户讨论和分享内容。通过学习这个主题，你将掌握以下关键知识点： 1. **Python基础**：首先，你需要...

爬虫案例1：利用Xpath，简单爬取图片

weixin_41769717的博客

10-07

1454

利用Python爬取一些好康的图片

Python使用xpath实现图片爬取

09-17

主要介绍了Python使用xpath实现图片爬取,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

xpath爬取图片

浮生未歇

11-30

2522

#-*- codeing = utf-8 -*- #@Time :2020/11/30 20:35 #@Author : 徐微 #@File : 04-xpath(wallhaven).py #@Software: PyCharm import requests from lxml import etree import os ''' 思路： 1.UA伪装 2.获取url 3.将获取网页的转成text格式 (requests.get) 4.将text转成对应的html

XPath查询语言爬取图片

最新发布

m0_61065919的博客

12-31

539

这个案例是爬取大图网的图片代码，不同网站xpath方法路径不一致，如果想要爬其他网站的图片请在遵守robots协议基础上修改url和xpath的路径，这个是最简单的单页爬取，下面再介绍分页爬取。

Python爬虫爬取4k高清图片——xpath解析

qq_44777595的博客

10-05

1536

在浏览器的网址栏输入该URL，确实能请求到第一页，由于每一页的URL的变化是不连贯的，但是从第2页开始是有规律的。所以我们可以单独获取第一页的图片，再通过循环获取第2页到第22页的图片。标签获取该页面中每一张图片的数据，由于通过xpath获取的数据会存储到一个列表中，所以我们需要通过下标索引取出对应的值。对比img标签中的src属性值可以发现，src中的图片地址是不完整的，所以在获取图片地址后需要将其拼接成完整的地址。图片的部分地址在img标签的src属性中，图片的名称是img标签alt属性的属性值。

用python的xpath和requests库爬取图片超详细实例（每一步都有注释）

qq_43406819的博客

11-03

7603

用python的xpath和requests库爬取图片超详细实例（每一步都有注释）本实例用于学习和研究，禁止非法用途，后果自负版权声明：本文为博主原创文章，转载请附上原文出处链接和本声明。本文链接：[https://mp.csdn.net/mdeditor/102889083](https://mp.csdn.net/mdeditor/102889083) 本实例用到的python库有 ...

Xpath爬图片

红尘炼炼心的博客

12-13

497

XPath 是一种查询语言，它是通过路径来寻找相应的信息。通过Xpath更加简洁的爬取内容。

bs4-爬取图片--xpath复习

guifei010的博客

03-09

996

# -*- coding:utf-8 -*-from urllib import requestfrom bs4 import BeautifulSoupimport osfrom fake_useragent import UserAgentagent = UserAgent()class IvskySpider(object): def __init__(self): se...

Python 爬图——基于xpath实现图片爬取

qq_43733805的博客

06-04

2482

Python 爬图——基于xpath实现图片爬取写在前面图片外链失效的话可以移步个人博客前段时间在网上冲浪的时候发现了一个有意思的网站：http://turnoff.us/，是一个极客漫画网站，他的创始人也是一个软件工程师，其漫画内容也别具一格，自嘲暗讽毒舌样样不少。这里贴出来几张： [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-O7fgDsNS-1591262530365)(https://i.loli.net/2020/06/04/KGVke6pAaT4vmRQ.p

简单一点，利用xpath解析爬取站长素材的图片

m0_58618019的博客

01-15

1173

简单利用xpath解析爬取站长素材上的美女图片，干就完了！

Python爬虫项目资料：豆瓣图片爬取教程

资源摘要信息: "Python爬虫项目班资料 douban_imgs.zip" 知识点概述： 1. Python编程语言基础：在爬虫项目中，Python是常用的开发语言，其简洁易学的语法和强大的库支持使得Python成为数据抓取、处理和分析的理想...