一、爬虫的背景知识
- 企业产生的数据:大的公司会根据用户的行为记录数据,数据会被大公司利用,用来做数据的分析
数据平台的数据:数据公司将数据包装成API形式,贩卖数据
政府和机构的数据:政府公开的一些数据
数据咨询平台的数据:为企业和公共机构提供有关战略、组织、运营和技术方面的咨询
二、什么是爬虫?
- 就是一段自动抓取互联网数据的程序或脚本
三、网页的三大特性
- 1.每一个网页都有自己唯一的URL地址(统一资源定位符)
- 2.网页都是通过HTML(超文本)来展示数据的
- 3.网页是通过HTTP/HTTPS(超文本传输协议)来传输html的
四、爬虫最基本的步骤
- 1.寻找目标url,发起请求
- 2.获取请求的响应结果,分析响应结果
- 3.从响应结果中提取数据
- a.第一部分,从网页中提取的目标数据
- b.如果存在新的url地址,则提取,继续发起请求
- 4.所有的目标url全部请求完毕,爬虫结束
五、数据的用途
- 1.可以爬取数据,写自己的网站
- 2.搜索引擎
- 3.购物助手
- 4.日常数据的基本分析(知乎数据冰山专栏)
六、课外知识
-
做爬虫的语言有:python java php c/c++ switch …
-
java:是python写爬虫的最大的竞争对手,java的发展周期长,生态圈都比较完善,页有很多第三方库的支持,java的代码量比较大,开发的成本