python网络爬虫——爬取网络关键字信息

张謹礧

已于 2024-10-10 09:05:43 修改

阅读量2.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： python网络爬虫文章标签： python 爬虫开发语言

于 2023-10-30 20:01:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_66547608/article/details/134126912

python网络爬虫专栏收录该内容

10 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了一段使用Python的requests和BeautifulSoup库抓取搜狗搜索结果页面标题的代码。首先导入所需库，然后定义一个函数构建URL并发送HTTP请求。如果请求成功，使用BeautifulSoup解析HTML并提取所有‘res-title’类的'h3'标签内的标题信息。最后，调用函数并传入关键字“全国高校智慧渔业大赛”以展示如何运行此爬虫。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这段代码使用了requests库和BeautifulSoup库来获取并解析搜狗搜索结果页面中的标题信息。具体的步骤如下：

导入所需的库：requests和BeautifulSoup。
定义了一个函数get_search_results()，用于获取关键字的搜索结果。
构造搜索关键字的URL，将关键字拼接到URL中。
设置请求头信息，包括User-Agent。
使用requests库的get()方法发送HTTP请求，并获取相应的内容。
检查响应状态码是否为200，如果是则表示请求成功，使用BeautifulSoup库解析响应的HTML文档。
使用find_all()方法查找所有具有"class"属性为"res-title"的"h3"标签元素，这些元素包含了搜索结果的标题。
遍历所有找到的标题元素，使用get_text()方法获取标题文本，并打印出来。
如果响应状态码不是200，则打印出"请求失败"的提示。

在代码的最后，调用get_search_results()函数并传入想要搜索的关键字，例如"全国高校智慧渔业大赛"。

请确保已经安装了所需的库（requests和BeautifulSoup），并根据需要适当修改代码中的请求头信息和关键字。

这段代码用于从搜狗搜索获取搜索结果页面中的标题信息。

导入库

import requests
from bs4 import Beautif

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

张謹礧 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。