网络爬虫的入门学习
本总结基于b站学传送门
爬虫基本的几个模块
requests库
发送request请求
url:要下载的目标网页的url
params:字典形式,设置url后面的参数,比如?id=123&name=xiaoming
data:字典或者字符串,一般用于POST方法提交数据
header:设置user-agent、refer等请求头,来假装是一个真实的用户在进行访问网页
timeout:超时时间,单位是秒
verify:True/False,是否进行HTTPs证书验证,默认是,需要自己设置证书地址
allow_redirects:True/False是否让requests做重定向处理,默认是
cookies:附带本地的cookies数据
接收response响应
r=requests.get/post(url)
//查看状态码,如果等于20o代表请求成功
r.status_code
//可以查看当前编码,以及变更编码
//(重要!requests会根据Headers推测编码,推测不到则设置为ISo-8859-1可能导致乱码