Python 库手册：urllib URL 操作模块

MediaTea

于 2025-07-23 07:45:40 发布

阅读量545

点赞数 13

CC 4.0 BY-SA版权

文章标签： python 开发语言

本文链接：https://blog.csdn.net/qq_41176800/article/details/149591221

urllib 是 Python 内置的标准库，用于处理 URL 操作、网络请求与响应处理。它提供了多个子模块，如 urllib.request、urllib.parse、urllib.error 和 urllib.robotparser，支持从互联网上获取数据、构造和解析 URL、处理异常等。

常见应用场景：

（1）发送 HTTP 请求并读取网页或 API 返回内容。

（2）设置请求头、自定义代理、处理重定向等。

（3）对 URL 编码、解析、拼接参数。

（4）捕获网络请求异常。

（5）判断网页是否允许被爬虫访问（robots.txt）。

◆ ◆ ◆

核心概念

1、urllib.request

用于发送 HTTP/HTTPS 请求，如打开网页、添加请求头、自定义请求对象等。

2、urllib.parse

提供 URL 编解码、拆解与拼接功能，是 URL 参数处理的核心模块。

3、urllib.error

定义了处理 HTTP 异常（如 404、503）或连接错误的异常类。

4、urllib.robotparser

可解析网站 robots.txt 文件，判断特定 URL 是否可被访问。

◆ ◆ ◆

应用举例

例 1：获取网页内容

from urllib import request
url = 'https://www.python.org'response = request.urlopen(url)html = response.read().decode('utf-8')  # 解码为字符串print(html)

例 2：GET 请求带参数

from urllib import request, parse
params = {'q': 'mediaTEA'}query_string = parse.urlencode(params)url = f'https://www.baidu.com/search?{query_string}'response = request.urlopen(url)print(response.status)

说明：

最后打印响应的状态码：

200 表示请求成功

403 表示被禁止访问

404 表示网页未找到

503 表示服务器暂时不可用

例 3：POST 请求

from urllib import request, parse
data = parse.urlencode({'username': 'admin', 'password': '123'}).encode()req = request.Request('https://httpbin.org/post', data=data)res = request.urlopen(req)print(res.read().decode())

例 4：解析 URL 结构

from urllib.parse import urlparse
url = 'https://www.example.com/path/page.html?query=abc#section'result = urlparse(url)print(result.netloc)  # 输出 www.example.comprint(result.path)    # 输出 /path/page.html

例 5：robots.txt 判断访问权限

from urllib import robotparser
rp = robotparser.RobotFileParser()rp.set_url('https://www.python.org/robots.txt')rp.read()print(rp.can_fetch('*', 'https://www.python.org/downloads/'))

◆ ◆ ◆

常用函数速览

urllib.request

urlopen(url, data=None, timeout=...)

打开 URL 并返回响应对象。

参数：

url: 字符串 URL 或 Request 对象

data: 可选，发送的数据（bytes）

timeout: 超时时间（秒）

返回：HTTPResponse 对象

Request(url, data=None, headers={}, method='GET')

创建一个自定义请求对象