网页爬虫-八爪鱼Xpath自定义数字翻页

原创

已于 2022-01-21 20:48:10 修改 · 2.9k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #html #xpath

于 2022-01-21 20:47:16 首次发布

本文介绍了如何使用八爪鱼爬虫处理网页常规数字翻页问题，特别是针对HTML中li列表式的页码编码。通过自定义XPath来定位并翻页，详细阐述了流程、自定义XPath的编写以及如何调试XPath，提供了在Chrome中利用XPath Helper辅助调试的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

八爪鱼Xpath自定义数字翻页

常规数字翻页
自定义Xpath数字翻页

常规数字翻页

常规的数字翻页设置后，抓取的页面停留在第一页。这是因为页码的html编码采用了li的列表式的数字。

这时候需要据此手动设置翻页的循环中的Xpath.

自定义Xpath数字翻页

流程图

自定义Xpath

与上述html源码图对应的Xpath，取当前页的下一页。当前页的li的class属性为"page-number active"。将上述Xpath添加到“循环翻页”的设置中的“循环方式”定义为“单个元素”下的方框。

Xpath如下（需要根据当前页的属性进行定位后选取下一页）：

//li[@class="page-number active"]/following-sibling::li[1]

调试Xpath

建议采用谷歌浏览器的应用商店中的Xpath Helper，在网页中点

最低0.47元/天解锁文章

新学期VIP享超值加赠

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Proceeding_Lin

关注关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Xpath实现-分页爬取彼岸图网

qq_47239143的博客

11-25

846

批量爬取彼岸图网照片

Xpath使用follwing-sibling()函数实现数字翻页

qq_36106205的博客

05-23

2675

问题：使用Xpath提取信息时，出现的网页没有"下一页"按钮，只有数字，如网页示例网页解决办法： 1. 通过查看不同页URL的区别，可以将需要的URL作为数据，导入八爪鱼中进行数据采集 2. 查看源码，通过观察Xpath的不同实现翻页功能讲解方法2 通过Xpath提供的函数，可以实现获取下一页的操作，该函数是following-sibling() 使用的Xpath： //span[...

参与评论您还未登录，请先登录后发表或查看评论

python开发网页抓取工具_有哪些比较主流的网页抓取工具（可编程定制抓取内容的）？...

weixin_39589511的博客

12-03

172

八爪鱼使用笔记

LebronBear的博客

03-14

368

一.下载 https://www.bazhuayu.com/tutorial8/az7bb 二.非固定元素循环以58同城租房网页为例，学习非固定元素循环使用选中全部-循环点击单个链接-选中全部-采集以下图片url地址三.易错笔记忘点击采集数据致运行报错 ......

Java面试教程：使用八爪鱼实现零代码数据采集

最新发布

gitblog_00008的博客

06-20

1089

Java面试教程：使用八爪鱼实现零代码数据采集引言：为什么数据分析师需要掌握数据采集在数据分析领域，数据采集是基础且关键的环节。对于Java开发者而言，虽然可以通过编写爬虫程序实现数据采集，但对于非专业爬虫工程师或数据分析初学者来说，使用可视化工具如八爪鱼可以大幅降低技术门槛。本文将从技术原理到实践应用，深入讲解如何利用八爪鱼工具高效完成数据采集任务。一、八爪鱼工具概述与技术原理 1.1 工...

八爪鱼RPA、八爪鱼采集器中xpath定位点击数字进行下一页循环（无下一页按钮）

caiqiuli0430的博客

01-24

2113

八爪鱼RPA、八爪鱼采集器中xpath定位点击数字进行下一页循环（无下一页按钮）

XPath语言在八爪鱼采集器中的运用（基础版）——以点击翻页代码为例（保姆级教程）

2301_79629586的博客

11-13

1460

ps:测试自己有没有翻页成功：点击“循环翻页”-“点击翻页”-再次点击“循环翻页”-再次点击“点击翻页”。如图的代码(这个代码是我额外补充的知识点，和例子八爪鱼爬取翻页关系不大，但很实用）：

python-Xpath语法

zyx13513314194的博客

11-24

2147

一、XMl简介（一）什么是 XML XML 指可扩展标记语言(EXtensible XML 是一种标记语言，很类似 HTML。 XML 的设计宗旨是传输数据，而非显示数据。 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准。 W3School 官方文档：http://www.w3school.com.cn/xml/index.asp （二）XML 和 HTML 的区别他们两者都是用于操作数据或者结构数据，在结构上大致相同的，但他们在本质上却存在着明显

python爬虫微博热搜_微博热搜榜数据爬虫采集 - 八爪鱼采集器

weixin_39994438的博客

12-05

2965

采集场景在微博热搜榜(https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6)可实时查看微博热搜排名、热搜关键词和热搜数。点击每个热搜关键词可进入与其相关的微博列表页。我们需要采集以上数据。采集字段微博热搜排名、热搜关键词、热搜数、账号、发布内容、发布时间、来源、转发数、评论数、点赞数、采集时间和页面网址等字段。鼠标...

八爪鱼自定义采集安居客二手房详情页

12-31

### 使用八爪鱼爬虫自定义抓取安居客网站上的二手房详情页面数据 #### 准备工作为了成功使用八爪鱼采集器抓取安居客网站上二手房详情页的数据，需先完成准备工作。确保已安装并注册好八爪鱼采集器账号，并熟悉其...

八爪鱼怎么爬虫经纬度

03-19

### 如何使用八爪鱼爬虫抓取经纬度数据 #### 工具简介 八爪鱼是一款功能强大的网页数据采集工具，能够帮助用户轻松获取互联网上的公开数据。通过其可视化界面设计，即使是没有编程基础的用户也可以快速上手并完成...

八爪鱼爬取黑猫投诉

05-10

以下是如何使用八爪鱼爬虫工具抓取黑猫投诉网站数据的详细步骤指南： ### 一、准备工作 1. 下载安装八爪鱼客户端（支持Windows/Mac） 2. 注册免费账号（支持微信扫码登录） 3. 打开黑猫投诉官网...

xpath

weixin_42458578的博客

09-07

677

主流浏览器都支持xpath语法在F12 Console里用$x(‘’)里输入定位信息根节点用/表示，对应整个html //option 选择整个文档中的所有的option节点，不管什么位置 //表示从当前节点寻找所有的后代元素，不管它在什么位置 //div//p 表示选择所有的div元素里的p元素，不管div在什么位置，不管p元素在div下面的什么位置类似css选择...

八爪鱼网络爬虫工具——学习笔记整理

热门推荐

小小梦想家

02-14

2万+

八爪鱼是一款网页爬虫工具，可以不用编写代码快速实现网页数据的爬取。关于其基础操作，可以在其官网的使用教程http://www.bazhuayu.com/tutorialIndex 进行查看。其中主要针对其翻页和带有验证码的登录以及xpath操作进行阐述。特殊翻页数字翻页在制作采集规则时，页面没有“下一页”等翻页按钮，而是一排页码，如"1","2","3","4","5"…… 如何...

八爪鱼爬下一页无法点击，svg问题

JOJO_zzzz的博客

03-26

1895

本文采用软件为八爪鱼，数据采集网站为中国经济社会大数据研究平台。问题：在爬取当前页数据时，点击下一页没有出现循环点击下一页按钮，点击循环点击单个元素后，发现在任务流程中循环翻页选项并不能选中选中下一页符合。解决思路：首先对下一页符号进行XPath提取，将提取出来的复制进八爪鱼当中，完成可点击下一页方法，然后对每个流程进行Ajax设置。

2-八爪鱼的自动识别（Cookie设置、翻页与循环）

weixin_43825323的博客

08-18

1万+

目录2-1-知识储备Cookie2-2-微博数据抓取（登陆Cookie设置）1-在八爪鱼页面打开微博的官网2-切换至“浏览模式”3-登录微博4-设置Cookie5-输入关键词6-自动识别网页，完成数据采集2-3-豆瓣图书数据抓取（翻页与循环）1-登陆八爪鱼，进入豆瓣的采集页面2-自动识别网页3-采集各个图书的链接4-循环打开各个网页采集相关信息5-点击采集开始对最终数据进行抓取2-4-采集流程逻辑1-八爪鱼的工作原理2-八爪鱼的流程逻辑案例1案例2案例32-5-思考参考资料 2-1-知识储备 Cookie

xpath获取指定多标签内数字

Kwoky的博客

07-30

7080

from lxml import etree html = ''' <div class="p-name p-name-type-2"> <a target="_blank" title="希捷（seagate）Expansion 新睿翼2TB 黑钻版USB3.0 2.5英寸移动硬盘经典黑 (STEA2000400)" href="/...

Xpath基础

代码改变世界

11-03

3341

https://www.bilibili.com/video/av19689660/?p=6 视频的链接 Xpath 是一门从html中提取数据的语言： Xpath的语法： 1. '/'是选择节点（标签）：' /html/head/meta' :表示的是能够选中html 下的head下的所有的meta 标签 2. ‘//’:能够从任意节点开始选择 ‘//li...

XPath说明 XPath数据类型和运算符号

zzcv_的专栏

09-21

4492

XPath XPath是一种XML路径表达式,用于在XSL等技术中确定XML文档的节点位置。表达式确定了一颗使用URL路径符号的XML文档节点树,并且可以使用谓词和函数筛选节点。 XPath节点有元素节点和属性,元素节点名称由XML名称空间前缀和本地字串组成,名称空间可以为null。还有一种特殊的元素节点—根节点,XPath只允许一个根节点作为树的根。处理、声明、定义等节点()在XPa