Python数据采集实战-使用BeautifulSoup框架解析HTML文档并提取所需内容（附源码和实现效果）

最新推荐文章于 2024-03-23 22:06:10 发布

数据杂坛

最新推荐文章于 2024-03-23 22:06:10 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏：数据分析文章标签： beautifulsoup python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_41858359/article/details/132430481

数据分析专栏收录该内容

96 篇文章

订阅专栏

实现功能

使用BeautifulSoup框架解析HTML文档并提取所需内容的例子：假设我们要从以下HTML文档中提取所有超链接的链接地址

实现代码


from bs4 import BeautifulSoup
import requests

# 发送请求并获取HTML文档
url = "https://www.baidu.com"
response = requests.get(url)
html_doc = response.text

# 使用BeautifulSoup解析HTML文档
soup = BeautifulSoup(html_doc, 'html.parser')

# 提取所有链接
links = []
for link in soup.find_all('a'):
    links.append(link.get('href'))

# 打印链接列表
print(links)

实现效果

本人读研期间发表5篇SCI数据挖掘相关论文，现在某研究院从事数据挖掘相关科研工作，对数据挖掘有一定认知和理解，会结合自身科研实践经历不定期分享关于python机器学习、深度学习、数据挖掘基础知识与案例。

致力于只做原创，以最简单的方式理解和学习，关注我一起交流成长。

邀请三个朋友关注V订阅号：数据杂坛，即可在后台联系我获取相关数据集和源码，送有关数据分析、数据挖掘、机器学习、深度学习相关的电子书籍。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

数据杂坛 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。