爬虫反反爬之5秒盾 - cloudflare
原创文章
场景描述
- 在爬虫开发中,可能有小伙伴会遇到浏览器正常访问,但是代码始终无法获取,返回403等;
- 在返回的源码中,我们能很清晰的看到下图所示的字样
问题解决
方法一:cloudscraper
- 类似于这种需要等待的网站(一般等待5S,所以也称为5s盾),80%可以判定为使用了5s盾反爬。
- 在python里,有可以绕过这个等待的库
cloudscraper
- 使用:
安装:
pip install cloudscraper
# 更新最新版本
pip install cloudscraper -U
普通使用
# 创建实例
scraper = cloudscraper.create_scraper()
# 请求url
res = scraper.get(url)
# 打印结果
print(res.text)
在scrapy中间件使用
middlewares.py
class CloudScraperMiddleware:
def process_response(self, request, response, spider):
if response.status == 403:
url = reques