爬虫
了解板块
1、http协议
概念:就是服务器和客户端进行数据交互的一种形式。
2、常用请求头信息
-User-Agent:请求载体的身份标识
-Connection:请求完毕后,是断开连接还是保持连
3、常用响应头信息
-Content-Type:服务器响应回客户端的数据类型
4、https协议:
安全的超文本传输协议
加密方式
5、对称秘钮加密
-非对称秘钥加密
-证书秘钥加密
request 模块
代码-爬取搜狗首页的页面数据
requests模块
-urllib模块
-requests模块
requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。作用:模拟浏览器发请求。
如何使用:(requests模块的编码流程)
-指定url
-发起请求
-获取响应数据
-持久化存储
环境安装:pip install requests
实战编码:
-需求:爬取搜狗首页的页面数据
代码-破解百度翻译1