基础篇-爬虫基本原理

最新推荐文章于 2024-05-01 15:53:26 发布

转载

最新推荐文章于 2024-05-01 15:53:26 发布 · 604 阅读

·

1

·

CC 4.0 BY-SA版权

原文链接：https://yq.aliyun.com/articles/650690

文章标签：

#爬虫 #json #javascript #ViewUI

本文介绍了Python3爬虫的基本工作流程，包括发起HTTP请求、接收响应内容、解析网页数据和保存数据。重点讲解了请求与响应的概念，请求包括请求方式、URL、请求头和请求体，响应包含状态、响应头和响应体。同时讨论了如何抓取网页上的文本、图片和视频数据，以及解析网页时遇到JavaScript渲染问题的解决方案，如分析Ajax请求、使用Selenium或Splash等工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文为自己动手，丰衣足食！Python3网络爬虫实战案例的学习笔记，部分图片来源于视频截图。

爬虫：请求网站，并提取数据的自动化程序请求网站，并提取数据的自动化程序

爬虫基本流程

在了解爬虫的定义之后，那么再来看看爬虫是如何工作的吧。
第一步：发起请求。一般是通过HTTP库，对目标站点进行请求。等同于自己打开浏览器，输入网址。
第二步：获取响应内容（response）。如果请求的内容存在于服务器上，那么服务器会返回请求的内容，一般为：HTML，二进制文件（视频，音频），文档，Json字符串等。
第三步：解析内容。对于用户而言，就是寻找自己需要的信息。对于Python爬虫而言，就是利用正则表达式或者其他库提取目标信息。
第四步：保存数据。解析得到的数据可以多种形式，如文本，音频，视频保存在本地。

爬虫基本流程

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。