selenium+python设置爬虫代理IP的方法

最新推荐文章于 2023-05-06 20:00:15 发布

转载最新推荐文章于 2023-05-06 20:00:15 发布 · 771 阅读

6 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/xiniudaili/p/10213149.html

文章标签：

#爬虫 #python

本文介绍如何使用Selenium进行高效网页爬取，包括提高抓取频率、破解验证信息及运用多线程+代理IP的方法。文章详细展示了为Chrome设置代理IP的Python代码，并强调了选择稳定快速代理IP的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在使用selenium浏览器渲染技术，当我们爬取某个网站的信息的时候，在一般情况下速度都不是特别的快。而且需要利用selenium浏览器渲染技术爬取的网站，反爬虫的应对技术都比较厉害，对IP访问频率有很高程度的限制。所以，如果想提升selenium抓取数据的速度，可以从两个方面出发：

第一方面，抓取频率要提高，破解出现的验证信息，一般都是验证码或者是用户登陆。

第二方面，使用多线程 + 代理IP，这种方式，需要电脑有足够的内存和充足稳定的代理IP 。

2. 为chrome设置代理IP

            from 
            selenium 
            import 
            webdriver
           
            chromeOptions 
            = 
            webdriver.ChromeOptions()
           
            # 设置代理
           
            chromeOptions.add_argument(
            "--proxy-server=http://202.20.16.82:10152"
            )
           
            # 一定要注意，=两边不能有空格，不能是这样--proxy-server = http://202.20.16.82:10152
           
            browser 
            = 
            webdriver.Chrome(chrome_options 
            = 
            chromeOptions)
           
            # 查看本机ip，查看代理是否起作用
           
            browser.get(
            "http://httpbin.org/ip"
            )
           
            print
            (browser.page_source)
           
            # 退出，清除浏览器缓存
           
            browser.quit()