Python爬虫——新手使用代理ip详细教程

最新推荐文章于 2025-07-04 14:01:49 发布

Python_魔力猿

最新推荐文章于 2025-07-04 14:01:49 发布

阅读量4.8k

点赞数 4

CC 4.0 BY-SA版权

文章标签： python 爬虫 tcp/ip

本文链接：https://blog.csdn.net/weixin_68789096/article/details/132685106

本文详述了使用Python实现代理IP爬虫的过程，包括代理IP的获取、验证、测试和使用。通过实例代码展示了如何从站大爷代理IP获取数据，验证其可用性，并在爬取过程中使用代理IP进行数据抓取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python代理IP爬虫是一种可以让爬虫拥有更多网络访问权限的技术。代理IP的作用是可以为爬虫提供多个IP地址，从而加快其爬取数据的速度，同时也可以避免因为访问频率过高而被网站封禁的问题。本文将介绍如何使用Python实现代理IP的爬取和使用。

一、代理IP的获取

首先我们需要找到一个可用的代理IP源。这里我们以站大爷代理ip为例，站大爷代理提供了收费代理和普通免费的代理IP，使用起来非常方便。

站大爷代理ip的API接口地址：https://www.zdaye.com/free/inha/1/

通过请求上面的API接口，我们可以获取到一页代理IP信息，包括IP地址和端口号。我们可以通过requests库的get方法获取到API返回的信息，示例代码如下：

import requests

url = 'https://www.zdaye.com/free/inha/1/'
response = requests.get(url)
print(response.text)

上面代码执行后，我们可以看到获取到的代理IP信息。但是我们需要对返回值进行解析，只提取出有用的IP地址和端口。

import requests
from bs4 import BeautifulSoup

url = 'https://www.zdaye.com/free/inha/1/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

proxies = []
for tr in soup.find_all('tr')[1:]:
    tds = tr.find_all('td')
    proxy = tds[0].text + ':' + tds[1].text
    proxies.append(proxy)

print(proxies)

上面代码中，我们使用BeautifulSoup库对返回的HTML文本进行解析，获取到所有的<tr>标签，然后通过循环遍历每一个<tr>标签，提取出其中的IP地址和端口信息，并将其保存到一个列表中。

二、代理IP的验证

获取到代理IP后，我们需要进行测试，判断这些代理IP是否可用。这里我们通过requests库的get方法进行测试，如果返回200则说明该代理IP可用。我们使用代理IP的方法是通过向requests.get方法传入proxies参数来实现，示例代码如下：

import requests

url = 'http://www.baidu.com'

proxies = {
    'http': 'http://222.74.237.246:808',
    'https': 'https://222.74.237.246:808',
}
try:
    response = requests.get(url, proxies=proxies, timeout=10)
    if response.status_code == 200:
        print('代理IP可用：', proxies)
except:
    print('代理IP不可用：', proxies)

在上面的代码中，我们向http://www.baidu.com发送请求，并使用了一个代理IP进行访问。如果返回HTTP状态码为200，则说明代理IP可用，否则说明不可用。

如果我们需要验证每一个代理IP，那么就需要对上面的代码进行循环遍历，例如：