urllib库的使用

原创已于 2022-08-15 01:42:05 修改 · 1.9k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#servlet #java #html

于 2022-08-15 01:34:01 首次发布

爬虫专栏收录该内容

8 篇文章

订阅专栏

1、urllib的使用

urllib.request.urlopen() 模拟浏览器向服务器发送请求：

1）定义需要访问的url地址

2）模拟浏览器向服务器发送请求

3）获取响应的页面源码

# 使用urllib获取百度首页源码
import urllib.request

# 1、定义一个url 需要访问的地址
url = 'http://www.baidu.com'

# 2、模拟浏览器向服务器发送请求 response就是响应
response = urllib.request.urlopen(url)

# 3、获取响应中的页面源码
# read方法 返回的是字节形式的二进制数据 -> 需要转换为字符串
# 解码：二进制->字符串 decode('编码的格式')
content = response.read().decode('utf-8')

# 4、打印数据
print(content)

2、一个类型和六个方法

2.1、一个类型

1）代码：

# 使用urllib获取百度首页源码
import urllib.request

# 1、定义一个url 需要访问的地址
url = 'http://www.baidu.com'

# 2、模拟浏览器向服务器发送请求 response就是响应
response = urllib.request.urlopen(url)

# 一个类型和六个方法
print(type(response))

2）输出：

3）response的数据类型是HttpResponse：

字节‐‐>字符串解码decode
字符串‐‐>字节编码encode

2.2、六个方法

read() 字节形式读取二进制扩展：rede(5)返回前几个字节

readline() 只能读取一行

readlines() 一行一行读取直至结束

getcode() 获取状态码（判断书写逻辑是否正确，返回200表示正常）

geturl() 获取url地址

getheaders() 获取header

# 使用urllib获取百度首页源码
import urllib.request

# 1、定义一个url 需要访问的地址
url = 'http://www.baidu.com'

# 2、模拟浏览器向服务器发送请求 response就是响应
response = urllib.request.urlopen(url)

# 按照一个字节一个字节的方式进行读取
content = response.read()

# 返回5个字节
content = response.read(5)

# 读取一行数据
content = response.readline()

# 按照一行一行的方式进行读取
content = response.readlines()

# 返回状态码 如果是200证明没有错
print(response.getcode())

# 返回url地址
print(response.geturl())

# 获取响应头等状态信息
print(response.getheaders())

2.3、下载图像、视频

import urllib.request

# 下载网页
url_page = 'http://www.baidu.com'

# url代表的是下载的路径 filename文件的名字
urllib.request.urlretrieve(url_page, 'baidu.html')

# 下载图片
url_img = 'https://img0.baidu.com/it/u=1309359181,3567527426&fm=253&fmt=auto&app=138&f=JPEG?w=281&h=499'

urllib.request.urlretrieve(url_img, 'lisa.jpg')

# 下载视频
url_video = 'https://vd3.bdstatic.com/mda-kjtx64epufgk8zw5/sc/cae_h264_nowatermark/1604104149/mda-kjtx64epufgk8zw5.mp4?v_from_s=hkapp-haokan-hnb&auth_key=1659543870-0-0-4dd2d6b9e96b8193a5e2ec3a86177452&bcevod_channel=searchbox_feed&pd=1&cd=0&pt=3&logid=3270589526&vid=6647036806223333961&abtest=103747_2-103890_2&klogid=3270589526'

urllib.request.urlretrieve(url_video, 'lisa.mp4')

3、请求对象的定制

UA介绍：User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等

UA反爬虫：在进行爬虫时候，程序模仿浏览器操作，但是反爬虫机制在响应爬虫请求时候需要进行UA识别，这时候就需要将UA参数传进我们的爬虫程序中

import urllib.request
 
url = 'https://www.baidu.com'
 
# url的组成
# https://www.baidu.com/s?wd=周杰伦
 
# http/https    www.baidu.com   80/443     s      wd = 周杰伦     #
#    协议             主机        端口号     路径     参数           锚点
# http   80
# https  443
# mysql  3306
# oracle 1521
# redis  6379
# mongodb 27017
 
headers = {
    'User-Agent': ''
}
 
# 因为urlopen方法中不能存储字典 所以headers不能传递进去
# 请求对象的定制
request = urllib.request.Request(url=url,headers=headers)
 
response = urllib.request.urlopen(request)
 
content = response.read().decode('utf8')
 
print(content)

3.1、编解码

3.1.1、get请求方式

1）urllib.parse.quote()：quote方法能够将汉字转换成unicode编码的格式，适用于单个参数

import urllib.request

url = 'https://cn.bing.com/search?q='

# 模拟浏览器访问——解决ua反爬
headers = {
    'User-Agent': ''
}

# 将周杰伦三个字变成unicode编码
# 我们需要依赖于urllib.parse
name = urllib.parse.quote('猪猪侠')

url = url + name

# 请求对象的定制
request = urllib.request.Request(url=url, headers=headers)
# 模拟浏览器向服务器发送消息
response = urllib.request.urlopen(request)
content = response.read().decode('utf8')

# 打印数据
print(content)

2）urllib.parse.urlencode()：urlencode方法也可以将汉字转换成unicode编码，适用于多个参数

# urlencode的应用场景：多个参数的时候
import urllib.request

base_url = 'https://cn.bing.com/search?'

data = {
    'q': '周杰伦',
    'sex': '男',
    'location': '中国台湾省'
}

new_data = urllib.parse.urlencode(data)

url = base_url + new_data

headers = {
    'User-Agent': ''
}

request = urllib.request.Request(url=url, headers=headers)

response = urllib.request.urlopen(request)

context = response.read().decode('utf-8')

print(context)

3.1.2、Post请求方式

post请求方式与get请求方式区别

1）get请求方式的参数必须编码：

        参数是拼接到url后面编码之后，不需要调用encode方法

                url = base_url + new_data

                new_data = urllib.parse.urlencode(data)

                request = urllib.request.Request(url=url, headers=headers)

2）post请求方式的参数必须编码：

        参数是放在请求对象定制的方法中，编码之后需要调用encode方法：

                url = 'https://fanyi.baidu.com/sug'

                data = urllib.parse.urlencode(data).encode('utf8')

                request = urllib.request.Request(url=url, data=data, headers=headers)

import urllib.request

url = 'https://fanyi.baidu.com/sug'

headers = {
    'User-Agent': ''
}

data = {
    'kw': 'spider'
}

# post请求方式的参数，必须要进行编码 data = urllib.parse.urlencode(data).encode('utf8') 编码之后必须调用encode方法
# post请求方式的参数，不会拼接在url后，而是放在请求对象定制的参数中
data = urllib.parse.urlencode(data).encode('utf8')

# post参数放在请求对象定制的方法中
request = urllib.request.Request(url=url, data=data, headers=headers)

response = urllib.request.urlopen(request)

context = response.read().decode('utf8')

print(context)

3.2、ajax请求

3.2.1、ajax的get请求

1）获取豆瓣电影第一页

# get请求
# 获取豆瓣电影的第一页数据 并且保存起来

import urllib.request

url = "https://movie.douban.com/typerank?type_name=%E5%8A%A8%E4%BD%9C&type=5&interval_id=100:90&action="

headers = {
    'User-Agent': ''
}

# 请求对象的定制
request = urllib.request.Request(url=url, headers=headers)

# 获取响应的数据
response = urllib.request.urlopen(request)
content = response.read().decode('utf8')

# 数据下载到本地(open方法默认为gdk版本，如果需要保存汉字，需要设置编码为utf8)
fp = open('douban.json', 'w', encoding='utf8')
fp.write(content)

2）获取豆瓣电影前十页

# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20
# https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=100&limit=20

import urllib.parse
import urllib.request


def create_request(page):
    base_url = "https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action="

    data = {
        'start': (page - 1) * 20,
        'limit': '20'
    }

    data = urllib.parse.urlencode(data)

    url = base_url + data

    headers = {
        'User-Agent': ''
    }

    request = urllib.request.Request(url=url, headers=headers)

    return request


def get_content(request):
    reponse = urllib.request.urlopen(request)
    content = reponse.read().decode('utf8')
    return content


def down_load(page, content):
    with open('douban' + str(page) + '.json', 'w', encoding='utf8') as fp:
        fp.write(content)


if __name__ == '__main__':
    start_page = int(input('请输入起始的页码'))
    end_page = int(input('请输入结束的页码'))

    for page in range(start_page, end_page):
        # 请求对象定制
        request = create_request(page)
        # 获取响应的数据
        content = get_content(request)
        # 下载
        down_load(page, content)

3.2.2、ajax的post请求

import urllib.request
import urllib.parse


def create_request(page):
    base_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname'

    data = {
        'cname': '北京',
        'pid': '',
        'pageIndex': page,
        'pageSize': '10'
    }

    data = urllib.parse.urlencode(data).encode('utf8')

    headers = {
        'User-Agent': ''
    }

    request = urllib.request.Request(url=base_url, headers=headers, data=data)

    return request


def get_content(request):
    reponse = urllib.request.urlopen(request)
    content = reponse.read().decode('utf8')
    return content


def down_load(page, content):
    with open('kfc' + str(page) + '.json', 'w', encoding='utf8') as fp:
        fp.write(content)


if __name__ == '__main__':
    start_page = int(input('请输入起始页码'))
    end_page = int(input('请输入结束页码'))

    for page in range(start_page, end_page + 1):
        # 请求对象的定制
        request = create_request(page)

        # 获取网页源码
        content = get_content(request)

        # 下载
        down_load(page, content)

3.3、cookie登录

cookie中携带者个人登录信息，如果有登录之后的cookie，那么我们可以携带者cookie进入到任何页面

# 适用的场景：在数据采集的时候，需要绕过登录，直接采集数据
# 个人信息页面是utf8，但是还是报编码错误，因为并没有进入个人信息页面，而是跳转到了登陆页面
# 那么登录页面不是utf8，所以报错
# 请求头信息不够，所以访问不成功
import urllib.request

url = 'https://weibo.com/u/3554714072'

# 模拟浏览器访问——解决ua反爬
headers = {
    # :authority: weibo.com
    # :method: GET
    # :path: /
    # :scheme: https
    'accept': '',
    # 可能会导致编码错误
    # 'accept-encoding': '',
    'accept-language': '',
    'cache-control': '',
    'client-version': '',
    'cookie': '',
    # referer 判断当前路径是不是由上一个路径进来，一般情况下，做图片防盗链
    'referer': '',
    'sec-ch-ua': '',
    'sec-ch-ua-mobile': '',
    'sec-ch-ua-platform': '',
    'sec-fetch-dest': '',
    'sec-fetch-mode': '',
    'sec-fetch-site': '',
    'sec-fetch-user': '',
    'upgrade-insecure-requests': '',
    'user - agent': ''
}

# 因为urlopen方法中不能存储字典，所以headers不能传递进去
# 请求对象的定制(因为参数顺序的问题，不能直接写url和headers)
request = urllib.request.Request(url=url, headers=headers)

response = urllib.request.urlopen(request)

content = response.read().decode('utf8')

with open('weibo.html', 'w', encoding='utf8') as fp:
    fp.write(content)

4、使用代理

4.1、handler代理

import urllib.request

url = 'http://www.baidu.com/'

headers = {
    'User-Agent': ''
}

request = urllib.request.Request(url=url, headers=headers)

# 获取handler对象
handler = urllib.request.HTTPHandler()

# 获取opener对象
build_opener = urllib.request.build_opener(handler)

# 调用open方法
response = build_opener.open(request)

content = response.read().decode('utf8')

print(content)

4.2、handler代理IP地址修改

import urllib.request

url = 'http://www.baidu.com/s?wd=ip'

headers = {
    'Accept': '',
    'Accept-Language': '',
    'Cache-Control': '',
    'Connection': '',
    'Cookie': '',
    'Host': '',
    'sec-ch-ua': '',
    'sec-ch-ua-mobile': '',
    'sec-ch-ua-platform': '',
    'Sec-Fetch-Dest': '',
    'Sec-Fetch-Mode': '',
    'Sec-Fetch-Site': '',
    'Sec-Fetch-User': '',
    'Upgrade-Insecure-Requests': '',
    'User-Agent': ''
}

request = urllib.request.Request(url=url, headers=headers)

# response = urllib.request.urlopen(request)
proxise = {
    'http': ''
}

handler = urllib.request.ProxyHandler(proxies=proxise)
opener = urllib.request.build_opener(handler)
response = opener.open(request)

context = response.read().decode('utf8')

with open('daili.html', 'w', encoding='utf8') as fp:
    fp.write(context)

4.3、代理池

import urllib.request

url = 'http://www.baidu.com/s?wd=ip'

headers = {
    'Accept': '',
    'Accept-Language': '',
    'Cache-Control': '',
    'Connection': '',
    'Cookie': '',
    'Host': '',
    'sec-ch-ua': '',
    'sec-ch-ua-mobile': '',
    'sec-ch-ua-platform': '',
    'Sec-Fetch-Dest': '',
    'Sec-Fetch-Mode': '',
    'Sec-Fetch-Site': '',
    'Sec-Fetch-User': '',
    'Upgrade-Insecure-Requests': '',
    'User-Agent': ''
}


request = urllib.request.Request(url=url, headers=headers)

# response = urllib.request.urlopen(request)
proxise_pool = [
    {'http': ''},
    {'http': ''},
]

import random
proxies = random.choice(proxise_pool)
handler = urllib.request.ProxyHandler(proxies=proxies)
opener = urllib.request.build_opener(handler)
response = opener.open(request)

context = response.read().decode('utf8')

with open('daili.html', 'w', encoding='utf8') as fp:
    fp.write(context)