最简单的python爬虫案例，适合入门学习_关于python的爬虫简单学习代码(1)

2401_84562768

于 2024-05-03 19:22:36 发布

阅读量748

点赞数 8

CC 4.0 BY-SA版权

分类专栏：程序员文章标签： python 爬虫学习

本文链接：https://blog.csdn.net/2401_84562768/article/details/138422573

程序员专栏收录该内容

187 篇文章

订阅专栏

本文介绍了使用Python的requests库和BeautifulSoup库进行网络爬虫的基本过程，包括获取网址、发送请求、解析网页内容以提取小说标题和章节，并保存到文件。作者通过实例演示了如何定位特定HTML元素并提取所需数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

图3-4 找到请求的网址

有细心的会看到，这个网址和我们平常浏览网页时地址栏里的网址一样啊，还用这么麻烦？
在这里插入图片描述
3-5 浏览器地址栏网址

这两个网址确实是一样的，是不用这么麻烦，直接从地址栏复制就可以。但很多时候，我们要爬取的网页数据并不在浏览器地址栏的那个网址里，这个时候就需要通过上面的那个开发者工具方法去找。

有了网址，发出请求的代码为：

url = "https://www.biqiuge.com/book/4772/2940354.html"     #   要爬取数据的网址
response = requests.get(url)       #发出访问请求，获得对应网页

访问请求的反馈结果放在response里了，这时我们用print(response)看看这个结果到底是什么?运行结果为：<Response [200]>

这是个什么鬼？怎么不是我们想要的网页内容呢？解释一下：

运行结果的意思是：响应状态为成功。可以放心写后面的代码了。如果出现数字404，就是没找到页面的意思，响应不成功。响应结果还需要解析才能得到网页内容。

2）、获得网页

上面说了，已经请求访问并响应成功了，接下来就是如何获得具体网页内容了。

soup = BeautifulSoup(response.content, 'lxml')     # 将获得的网页内容解析写入soup备用

我们用print(soup)看一下结果，就会得到下图3-6的结果：

3-6 代码得到的网页内容

内容与前面在Preview里看到的一样，说明已经成功获得了网页内容。

3）、解析网页内容，获得数据

所有要爬取的数据，都在上面的soup结果里，但还有更多是我们不需要的数据。所以接下来第3步就是对上面的结果内容进行操作，以获得我们想要的内容。

1）根据目标，我们首先要获得小说的标题和章节标题

在开发者工具里，分析网页内容，发现我们的目标之一小说和章节的标题分别位于下图所示位置：

图3-7 找到标题所处位置

A、小说标题“圣墟”在下面两个位置都出现过，写解析代码就可以了：

<a href="/book/4772/">圣墟</a>
<a href='https://www.biqiuge.com/book/4772/' target='_blank' title="圣墟">圣墟</a>

很明显第一个相对比简单点，所以，我们通过解析第一个位置内容来提取出标题“圣墟”

t1 = soup.find('a', href="/book/4772/"').get_text()

代码解析：上面两处标题都位于<a,…/a>之间，所以“a”就是我们要用的第一个参数，由于有a参数的代码还有很多，为了精准定位就是这个位置的a，我们发现属性href的值不同而且貌似是独一无二的，所以将其作为关键字放进代码里，就得到了此处的这段代码。然后用.get_text()将这段代码里的文字给爬取出来，就得到了我们最终想要的小说标题——“圣墟”。上面的代码如果将href的参数值改为：’ https://www.biqiuge.com/book/4772/'，也能得到相同的结果

B、章节标题在网页代码中也出现过多次，但是我们只需找到一处解析得到即可，根据上面的经验，我们选最简单的一处为：

<h1>第一章 沙漠中的彼岸花</h1>

编写代码：

t2 = soup.find('h1').get_text()

2）获得小说内容

继续分析网页代码，发现小说内容的位置为：

大漠孤烟直…

说明小说内容位于<div …/div >之间，所以将div作为第一个参数，由于div出现了很多次，所以我们需要继续用此处独有的参数作为关键字，我们将id=“content” class="showtxt"同时作为参数放到代码里，这样代码就为：

tt = soup.find('div', id="content", class="showtxt").get_text()

此时，由于class在python里代表“类”，为敏感词，作为关键字放在代码里容易混淆，所以我们将敏感词作为关键字时，需要在其后面加一个下划线，将代码class="showtxt"改为：class_=“showtxt”。运行后，小说内容就已经在tt里了。我们可以通过print(tt)看到效果。

4）、保存内容

虽然小说标题、内容都已经爬取到了，但到哪里看呢，我们不可能每次都用python用print()运行后看。我们可以将刚才爬取到的标题、内容，写入到一个txt文件里。这就用到os模块了。

此时运行程序，就能在e盘发现已新生成了文件“小说.txt文件"，打开，发现，所有想要的内容已经写入到文件里了如图3-8。但是小说内容没有换行，阅读起来不方便，且前面有个多余的app2()。

图3-8 爬取的效果

为了达到更好的效果，我们将代码：

最后

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！