更改镜像源
进入cmd命令提示符窗口
pip config set global.index-url https://mirrors.ustc.edu.cn/pypi/web/simple
安装Requests库
pip install requests
爬虫代码
User-Agent查看方法进入百度首页,右键鼠标选择检查/或按F12。点击网络,随便选择一个响应文件,标头选项的最下面即为User-Agent。
以下为代码
import requests #导入requests库
url = 'https://www.baidu.com' #确定自己需要爬取的网址
heards = {'User-Agent':'自己电脑上的数值'} #用于模仿浏览器访问网站。(反爬处理)
response = requests.get(url =url ,headers=heards).text #获取该网址的网页源代码
print(response) #打印输出代码
运行代码程序即为百度首页网站页面前端代码