爬虫基础知识五

本文介绍了两种常用的数据提取方法:使用JSON进行结构化数据处理及利用XPath从HTML文档中精准定位所需信息。通过实际案例展示了如何运用这些技术有效地解析和提取网页数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据提取方法一

利用json

  • 数据交换格式,看起来像python类型(列表,字典)的字符串
  • 使用json之前需要导入 import  json
  • 哪里会返回json的数据
    • 浏览器切换到手机版
    • 抓包app
  • json.loads
    • 把json字符串转换为python类型
    • json.loads(json字符串)
  • json.dumps
    • 把python类型转化为json字符串(用于保存数据到文本中)
    • json.dumps({})
    • json.dumps(ret,ensure_ascii=False,indent=2)
      • ensure_ascii:让中文显示成中文
      • indent:能够让下一级在上一级的基础上空格几个

数据提取方法二

利用xpath

  • xpath
    • 一门从html中提取数据的语言
  • xpath语法
    • xpath helper插件:帮助我们从elments中定位数据
    • 1.选择节点(标签)
      • /html/head/meta:能够选中html下的所有的meta标签
    • 2.//:能够从任意节点开始选择
      • //li :当前页面上所有的li标签
      • /html/head//link :head下的所有的link标签
    • 3.@符号的用途
      • 选择具体的某个元素://div[@class='feed']/ul/li
        • 选择class=‘feed’的div下的ul下的li
      • a/@href:选择a的href的值
    • 4.获取文本:
      • /a/text():获取a下的文本
      • /a//text():获取a下的所有的文本
    • 5.点前
      • ./a:当前节点下的a标签
  • lxml
    • 安装:pip install lxml
    • 使用
      from lxml import etree
      element=etree.HTML("html字符串")
      element.xpath("")

转载于:https://www.cnblogs.com/-chenxs/p/11415701.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值