对于爬虫来说,由于爬虫的爬取速度过快,在爬取过程中可能遇到同一个IP访问过于频繁的问题,此时网站就会让我们输入验证码登录或直接封锁IP,所以我们就需要代理来防止发生。
一、基本原理
代理实际上指的是代理服务器,它的功能是代理网络用户去取得网络信息。换句话说,它是信息的中转站。
二、代理的作用
突破自身IP访问限制,访问一些平时不能访问的站点。
访问一些单位或团体内部资源:比如使用教育网内地址免费代理服务器,就可以用于对教育网开放的各类FTP下载上传,以及各类资料查询共享等服务,以及各类资料查询共享等服务。
提高访问速度:通常代理服务器都设置一个较大的硬盘缓冲区,当有外界的信息通过时,同时也将其保存到缓冲区中,当其他用户再访问相同的信息时,则直接由缓冲区中取出信息,传给用户,以提高访问速度。
隐藏真实IP:上网者也可以通过这种方法隐藏自己的IP,免受攻击。对于爬虫来说,就是为了防止自身的IP被封锁。
三、爬虫代理
使用代理隐藏真实的IP,让服务器误以为代理服务器在请求自己。这样在爬取过程中通过不断更换代理,就不会被封锁,可以达到很好的爬取效果。
四、代理分类
1.根据协议区分
FTP代理服务器:主要用于访问FTP服务器,一般有上传、下载以及缓存功能,端口一般为21、2121等。
HTTP代理服务器:主要用于访问加密网站,一般有内容过滤和缓存功能,端口一般80、8080、3128等。
SSL/TLS代理:主要用于访问加密网站,一般有SSL或TLS加密功能(最高128位加密强度),端口一般为443。
RTSP代理:主要用于Real流媒体服务器,一般有缓存功能,端口一般为80、8080、3128等。
Talnet代理:主要用于talent远程控制(黑客入侵计算机时常用于隐藏身份),端口一般为23。
POP3/SMPT代理:主要用于POP3/SMPT方式收发邮件,一般有缓存功能,端口一般为110/25。
SOCK3代理:只是单纯传递数据包,不关心具体协议和