python爬虫联系xpath模块<三国演义>

该博客介绍了XPath作为HTML解析工具的作用,与BeautifulSoup进行对比。文中提到,XPath通过'@'符号获取标签属性值,示例代码展示了如何解析网页链接中的标签内容和属性,用于爬虫数据提取。最后,内容被保存到'sanguo.txt'文件中。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

xpath 是一种html文件的解析方法, 和beautifulsoup 库作用一样

- xpath中获取标签中的属性的值使用’@'符号

– i.xpath(‘./a/text()’) 解析标签内容

– i.xpath(‘./a/@href’) 解析标签中的属性值

# xpath 是一种html文件的解析方法, 和beautifulsoup 库作用一样
# - xpath中获取标签中的属性的值使用'@'符号
#  -- i.xpath('./a/text()') 解析标签内容
#  -- i.xpath('./a/@href') 解析标签中的属性值
# 导入xpath 功能
from lxml import etree
# 导入requests库
import requests
# 要爬取的网页链接
url="https://www.shicimingju.com/book/sanguoyanyi.html"
# 伪装请求头部信息
head={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36 Edg/88.0.705.74"
}
#向目标链接发起请求
req=requests.get(url=url,headers=head)
# 对响应内容编码格式做处理
req.encoding=req.apparent_encoding
# 获取响应内容
text=req.text
# 对响应内容做处理
page=etree.HTML(text)
page_list=page.xpath('//*[@id="main_left"]/div/div[4]/ul/li')
for i in page_list:
    # 解析html 文件中标签内容和属性值
    # -- i.xpath('./a/text()') 解析标签内容
    # -- i.xpath('./a/@href') 解析标签中的属性值
    c=i.xpath('./a/text()')
    u=i.xpath('./a/@href')
    c.append(f"https://www.shicimingju.com/{u[0]}")
    # 保存为爬取内容
    with open('./sanguo.txt','a+',encoding='UTF-8') as f:
        f.write(f"{c}\n")
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

陈阳羽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值