selenium+python设置爬虫代理IP的方法

本文介绍如何使用Selenium进行高效网页爬取,包括提高抓取频率、破解验证信息及运用多线程+代理IP的方法。文章详细展示了为Chrome设置代理IP的Python代码,并强调了选择稳定快速代理IP的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 设置背景

在使用selenium浏览器渲染技术,当我们爬取某个网站的信息的时候,在一般情况下速度都不是特别的快。而且需要利用selenium浏览器渲染技术爬取的网站,反爬虫的应对技术都比较厉害,对IP访问频率有很高程度的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:

第一方面, 抓取频率要提高,破解出现的验证信息,一般都是验证码或者是用户登陆 。

第二方面,使用多线程 + 代理IP, 这种方式,需要电脑有足够的内存和充足稳定的代理IP 

2. 为chrome设置代理IP

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
from selenium import webdriver
chromeOptions = webdriver.ChromeOptions()
 
# 设置代理
chromeOptions.add_argument( "--proxy-server=http://202.20.16.82:10152" )
# 一定要注意,=两边不能有空格,不能是这样--proxy-server = http://202.20.16.82:10152
browser = webdriver.Chrome(chrome_options = chromeOptions)
 
# 查看本机ip,查看代理是否起作用
print (browser.page_source)
 
# 退出,清除浏览器缓存
browser.quit()

注意事项: 

第一,选择稳定的固定的代理IP。不要选择动态代理IP。我们常用的爬虫IP代理通常都是具有高度保密性质的高匿名动态IP,是通过拨号动态产生的,时效性非常的短,一般都是在3分钟左右。对于scrapy这种并发度很高,又不需要登录的爬虫来说,非常合适,但是在浏览器渲染类爬虫中并不适用。

第二,选择速度较快的代理IP。因为selenium爬虫采用的是浏览器渲染技术,这种浏览器渲染技术速度就本身就很慢。如果选择的代理IP速度较慢,爬取的时间就会进一步增加。

第三,要有足够大的电脑内存。因为chrome占内存较大,在并发度很高的情况下,容易造成浏览器崩溃,也就是程序崩溃。

第四,在程序结束时,调用 browser.quit( ) 清除浏览器缓存。

3. 需要用户名密码验证的代理

参考文章: 

Selenium chrome配置代理Python版:https://www.jb51.net/article/151634.htm

GitHub:https://github.com/RobinDev/Selenium-Chrome-HTTP-Private-Proxy

转载于:https://www.cnblogs.com/xiniudaili/p/10213149.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值