【爬虫】requests 结合 BeautifulSoup抓取网页数据

最新推荐文章于 2025-06-29 22:09:24 发布

原创

最新推荐文章于 2025-06-29 22:09:24 发布 · 5.4k 阅读

33 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #beautifulsoup #python #requests

一、BeautifulSoup使用步骤

BeautifulSoup 是一个用于从 HTML 或 XML 文件中提取数据的 Python 库。以下是如何使用 BeautifulSoup 来解析 HTML 并提取信息的基本步骤：

1、安装：

如果你还没有安装 BeautifulSoup，你可以使用 pip 来安装它。BeautifulSoup 通常与 lxml 或 html.parser 这样的解析器一起使用，但 lxml 通常提供更快的解析和更全面的功能。

pip install beautifulsoup4 lxml

2、导入库：

在你的 Python 脚本中，你需要导入 BeautifulSoup 和一个解析器。

from bs4 import BeautifulSoup
import requests

注意：这里我也导入了 requests 库，它用于从网络获取 HTML 内容。如果你已经有了 HTML 内容，你可以直接用它来创建 BeautifulSoup 对象。
3、获取 HTML 内容：

使用 requests 库从网页获取 HTML 内容。

url = 'http://example.com'
response = requests.get(url)
response.raise_for_status()  # 如果请求失败，这会抛出一个异常
html_content = response.text

4、解析 HTML：

使用 BeautifulSoup 和解析器来解析 HTML 内容。

soup = BeautifulSoup(html_content, 'lxml')

5、提取数据：

使用 BeautifulSoup 的各种方法和选择器来提取你感兴趣的数据。例如，使用 .find() 或 .find_all() 方法来查找标签，并使用 .get_text() 方法来获取标签内的文本。

# 查找所有的段落标签 <p>
paragraphs = soup.find_all('p')

# 打印每个段落的文本内容
for paragraph in paragraphs:
    print(paragraph.get_text())

# 查找具有特定类名的标签
divs_with_class = soup.find_all('div', class_='some-class')

# 使用 CSS 选择器查找元素
links = soup.select('a[href]')  # 查找所有带有 href 属性的 <a> 标签

6、处理属性：

你也可以获取和处理 HTML 标签的属性。例如，要获取一个链接的 href 属性，你可以这样做：

for link in soup.find_all('a'):
    print(link.get('href'))

7、清理和关闭：

在处理完 HTML 后，你可能想要关闭任何打开的文件或连接（尽管在使用 requests 和 BeautifulSoup 时通常不需要手动关闭它们）。但是，如果你的脚本涉及其他资源，请确保正确关闭它们。

8、注意事项：

最低0.47元/天解锁文章

200万优质内容无限畅学