python爬虫urllib库基础(1)

本文介绍了Python中Urllib模块的基本用法,包括如何使用urlretrieve下载网页内容到本地文件、清理缓存、提取环境信息、获取状态码及URL等。同时,还提供了超时设置的方法以应对网络延迟等问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1,urllib基础

(1)爬取一个链接下来文件可以打开:
首先创建一个文件夹:
在这里插入图片描述
大概是像这个样子

import urllib
import urllib.request   #这两个import都是每次必要的,后面我就不重复码出来了
#第一个参数是网址,第二个参数是文件路径\你自己自定义的名字.html
urllib.request.urlretrieve("http://www.baidu.com",filename = "F:\爬虫文档\自定义名字.html") #将一个网页网址拉下来

爬下来就这样了:
在这里插入图片描述
点进去就是打开网页

(2)清理缓存:

urllib.request.urlcleanup()

(3)提取环境信息

file = urllib.request.urlopen("http://www.baidu.com")
mes = file.info()
print(mes)

提取出来以后是这样的
在这里插入图片描述
这些都是可以在网页查找源代码所看过的重要信息,我在接下来的其他博客可能会讲到。

(4)返回状态码

file = urllib.request.urlopen("http://www.baidu.com")
mes = file.getcode()
print(mes)

一般状态码为200表示正常响应,如果为403则错误响应,还有很多其他的,以后再补充…

(5)返回你爬去的网址名字
有时候会出现你不知道你爬了什么的情况,或着网址太多你忘了哪个变量对应哪个网址,可以用这个

file = urllib.request.urlopen("http://www.baidu.com")
mes = file.geturl()
print(mes)

返回的将是一个网址的名字

(6)超时设置
由于网速或服务器问题,有时爬取时间会非常久,就可以设置一个超时设置,若超出你设定的时间,就做出对应的反应。

file = urllib.request.urlopen("http://www.baidu.com",timeout=0.001) #timeout就是你设置的时间限制
mes = file.geturl()
print(mes)

由于超过了0.001秒打开网址,编辑器会报错
在这里插入图片描述
我在之后会写个异常处理来解决这种情况

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值