爬虫基础知识五

最新推荐文章于 2025-08-15 22:56:20 发布

转载最新推荐文章于 2025-08-15 22:56:20 发布 · 80 阅读

CC 4.0 BY-SA版权

文章标签：

本文介绍了两种常用的数据提取方法：使用JSON进行结构化数据处理及利用XPath从HTML文档中精准定位所需信息。通过实际案例展示了如何运用这些技术有效地解析和提取网页数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据交换格式，看起来像python类型（列表，字典）的字符串
使用json之前需要导入 import json
哪里会返回json的数据
- 浏览器切换到手机版
- 抓包app
json.loads
- 把json字符串转换为python类型
- json.loads(json字符串)
json.dumps
- 把python类型转化为json字符串（用于保存数据到文本中）
- json.dumps({})
- json.dumps(ret,ensure_ascii=False,indent=2)
  - ensure_ascii:让中文显示成中文
  - indent:能够让下一级在上一级的基础上空格几个

xpath
- 一门从html中提取数据的语言
xpath语法
- xpath helper插件：帮助我们从elments中定位数据
- 1.选择节点（标签）
  - /html/head/meta:能够选中html下的所有的meta标签
- 2.//：能够从任意节点开始选择
  - //li ：当前页面上所有的li标签
  - /html/head//link ：head下的所有的link标签
- 3.@符号的用途
  - 选择具体的某个元素：//div[@class='feed']/ul/li
    - 选择class=‘feed’的div下的ul下的li
  - a/@href：选择a的href的值
- 4.获取文本：
  - /a/text()：获取a下的文本
  - /a//text():获取a下的所有的文本
- 5.点前
  - ./a：当前节点下的a标签

lxml

使用

from lxml import etree
element=etree.HTML("html字符串")
element.xpath("")

转载于:https://www.cnblogs.com/-chenxs/p/11415701.html