为什么会需要代理:
严格来讲,selenium本身就是一款网络爬虫,那么当目标网站采取反扒策略时候,我们的矛,往往就是代理proxy
我们来看下proxy.py的目录结构:
每种代理类型都有2个属性:
“ ff_value”是Firefox配置文件首选项的值,“ string”是代理类型的ID。
代理类型:
DIRECT=ProxyTypeFactory.make(0,'DIRECT')#直接连接,无代理(Windows上的默认设置)。
MANUAL=ProxyTypeFactory.make(1,'MANUAL')#手动代理设置(例如,对于httpProxy)。
PAC=ProxyTypeFactory.make(2,'PAC')#来自URL的代理自动配置。
RESERVED_1=ProxyTypeFactory.make(3,'RESERVED1')#从未使用过。
AUTODETECT=ProxyTypeFactory.make(4,'AUTODETECT')#代理自动检测(可能是WPAD)。
SYSTEM=ProxyTypeFactory.make(5,“SYSTEM”)#使用系统设置(Linux上的默认设置)。
UNSPECIFIED=ProxyTypeFactory.make(6,“UNSPECIFIED”)#未初始化(供内部使用)。
这里先说一下chrome与firefox不同点:
先看firefox的源码:
options.py
from selenium.webdriver.common.proxy