爬虫基础理论知识（一）

最新推荐文章于 2022-05-08 10:30:00 发布

原创

最新推荐文章于 2022-05-08 10:30:00 发布 · 747 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了爬虫的基础知识，包括爬虫的背景、定义、网页的URL特性、爬虫基本步骤和数据用途。讲解了爬虫的分类，如通用爬虫和聚焦爬虫，并涉及到七层协议、HTTP协议、URL组成、请求方式及其区别。同时提到了常见的请求头参数和响应状态码，以及爬虫可能涉及的编程语言。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、爬虫的背景知识

企业产生的数据：大的公司会根据用户的行为记录数据，数据会被大公司利用，用来做数据的分析
数据平台的数据：数据公司将数据包装成API形式，贩卖数据
政府和机构的数据：政府公开的一些数据
数据咨询平台的数据：为企业和公共机构提供有关战略、组织、运营和技术方面的咨询

二、什么是爬虫？

就是一段自动抓取互联网数据的程序或脚本

三、网页的三大特性

1.每一个网页都有自己唯一的URL地址（统一资源定位符）
2.网页都是通过HTML（超文本）来展示数据的
3.网页是通过HTTP/HTTPS（超文本传输协议）来传输html的

四、爬虫最基本的步骤

1.寻找目标url，发起请求
2.获取请求的响应结果，分析响应结果
3.从响应结果中提取数据
- a.第一部分，从网页中提取的目标数据
- b.如果存在新的url地址，则提取，继续发起请求
4.所有的目标url全部请求完毕，爬虫结束

五、数据的用途

1.可以爬取数据，写自己的网站
2.搜索引擎
3.购物助手
4.日常数据的基本分析（知乎数据冰山专栏）

六、课外知识

做爬虫的语言有：python java php c/c++ switch …
java：是python写爬虫的最大的竞争对手，java的发展周期长，生态圈都比较完善，页有很多第三方库的支持，java的代码量比较大，开发的成本

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。