【Python网络爬虫】使用LXML解析网页数据

Python网络爬虫 – 使用LXML解析网页数据

Web Scraping in Python - Using LXML to Parse Data on Website

By Jackson@ML

Lxml作为Python的第三方库,提供易用的且功能强大的API,用来解析XML和HTML文档。事件驱动的API被用于分步骤解析。

本文简要介绍使用lxml库解析网页的基本步骤。

1. 安装导入etree

若要使用xlml,则必须手动安装这个第三方库。
访问pypi.org官网,搜索得到lxml最新版本安装方法。

在这里插入图片描述
看到最新版本为 lxml 5.2.2, 点击进入下载安装页面。

在这里插入图片描述
按照提示,在Windows命令行窗口(cmd) 或者 PowerShell 终端,执行以下命令:

pip install lxml

进行该扩展库安装。

在这里插入图片描述
如果该库已安装,类似笔者电脑显示的上图,则忽略。接下来,可以导入使用该库了。

2. 在Anaconda Navigator上运行lxml文件解析

如果需要lxml库解析,首先导入该库,需要使用其下的etree模块;同时,需要对样例xml文件进行解析。
因此,我们先创建一个XML文件。

访问Microsoft.com官网链接,复制XML代码;接下来,打开Anaconda Navigator,随即创建一个文本文件,如下图所示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值