(整个demo都是跟着视频敲的)
一、准备(流程)
-
访问指定URL
需要导包:import urllib.request,urllib.error -
爬取数据
需要导包:import bs4 -
分析并保存数据
需要导包:import xlwt #存放到Excel,进行Excel操作。或import sqlite3 #存放到数据库,进行SQLite3数据库操作 -
主调函数
调用前面的函数 -
运行
调用主调函数
二、分流程
1、访问指定的url
(1)导包
import urllib.request,urllib.error
(2)调用urllib.request.Request类构造请求信息
使用方法为:urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
详细用法:
from urllib import request, parse
url = 'http://httpbin.org/post'
headers = {
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
'Host': 'httpbin.org'
}
dict = {
'name': 'Germey'
}
data = bytes(parse.urlencode(dict), encoding='utf8')
response = request.Request(url=url, data=data, headers=headers, method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))
但在本项目只指定url和headers
本项目的用法:
head = { #模拟浏览器头部信息,向豆瓣服务器发送信息
"User-Agent": "Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML, likeGecko) Chrome / 83.0.4103.106Safari / 537.36"
} #用户代理,表示告诉豆瓣服务器,我们是什么类型的机器、浏览器(本质上市告诉浏览器)
request = urllib.request.Request(url,headers=head)
(3)使用urllib.request.urlopen()方法发起请求,并用把浏览器相应回来的数据以字符串的形式保存,在这里做个异常处理
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode('utf-8')
#print(html)
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
(4)返回值
return html
整个方法的代码如下:
import urllib.reques