1.如何获取网站信息?
(1)调用requests库、bs4库
#检查库是否下载好的方法:打开终端界面(terminal)输入pip install bs4,
如果返回的信息里有Successfully installed bs4 说明安装成功(requests同理)
from bs4 import BeautifulSoup
import requests
(2)访问网站
import requests
response = requests.get("https://movie.douban.com/top250")
print(response.status_code) #HTTP状态响应码
if response.ok:
print(response.text)
else:
print("请求失败")
输出结果:
418
请求失败
无法访问原因:
有些网站会检查请求的 User-Agent,如果没有提供合适的 User-Agent,可能会拒绝访问。
(3)添加 User-Agent 头部
打开网站->右键->检查->network
刷新网页—>点击任意一个模块—>在headers一栏找到"User-Agent"—>复制冒号后面的内容