scrapy爬取某网站,模拟登陆过程中遇到的那些坑

最新推荐文章于 2024-04-24 16:55:30 发布

原创

最新推荐文章于 2024-04-24 16:55:30 发布 · 1.8w 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #scrapy

在使用Scrapy爬取一个需要登录的网站时，遭遇动态验证码和重定向问题。通过分析请求，提取动态参数，编写模拟登录代码，但初次尝试因未正确处理cookie导致失败。关闭重定向选项REDIRECT_ENABLED=False后，遇到302错误，通过设置HTTPERROR_ALLOWED_CODES解决了问题。学习过程强调理解技术原理和耐心分析的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近接触scrapy,爬取了几个网站,用着还挺顺手的.
前几天,一个做业务的同事让我帮他爬取一个网站上的用户信息,我就满口承诺下来了.毕竟,通过前几次的爬取,已经自信心爆棚了(从此入坑).

    拿到一个网站之后就是先分析网站,分析之后发现需要的数据要登陆才能看到.这个可难不倒我,不就是模拟登陆吗,小菜一碟.
    用chrome分析一下,看到有用户名,密码,还有其他两个校验值.另外还有一个重定向的callback值.如下:

<input type="hidden" name="callback" id="callback" value="此处是重定向的链接">

接下来就登陆,观察post请求的情况.因为有上面的那行代码,所以跳转太快,没看到post请求情况,删掉上面那行代码,然后请求,这次看到了表单发送信息.

接下来就是写代码,模拟登陆.很快就写好代码了,然后开始测试.(还记的上面说过的哪两个校验值吗? 这两个值都是动态的,可以用正则从登陆页面提取到).

部分代码如下:

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

thytty

关注关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
7
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

scrapy 解决Redirecting 301 302重定向问题

菜鸡小白的成长记录

10-25

4万+

在使用Scrapy框架中URl被重定向，总是遇到这类问题: DEBUG: Redirecting (301/302) to <GET https://XXXX refer https://XXXX> 解决方式：在Scrapy中的Request中添加 dont_filter=True，因为Scrapy是默认过滤掉重复的请求URL，添加上参数之后即使被重定向了也能请求到正常的数据了。在Scrapy框架中的 settings.py文件里添加 HTTPERROR_ALLOWED_COD

Scrapy框架——模拟登录与中间件

最新发布

m0_74653634的博客

05-13

849

在Scrapy中处理登录和Cookie管理主要有三种方案。第一种方案是直接从浏览器复制Cookie并手动添加到请求头中，适用于简单场景。第二种方案是通过模拟登录流程，使用FormRequest发送POST请求，自动管理Cookie，推荐使用。第三种方案是在settings.py中配置DEFAULT_REQUEST_HEADERS，并禁用COOKIES_ENABLED，适用于全局Cookie管理。Scrapy的session机制可以自动处理Cookie的携带和管理，简化了登录流程的实现。通过重写start_r

7 条评论您还未登录，请先登录后发表或查看评论

Scrapy 中的 Cookies 管理

一勺菠萝丶的博客

12-12

1716

在 Scrapy 中灵活运用和可以有效管理爬虫的 cookies 行为。无论是全局设置还是局部定制，合理配置 cookies 是确保爬虫对目标网站友好交互的关键。理解并应用这些配置可以帮助你提高爬虫的效率和适应性，特别是在面对复杂网站时。

scrapy中禁止请求重定向

p_xiaobai的博客

03-04

9913

在settings里面设置一下REDIRECT_ENABLED = False

Scrapy爬虫中处理重定向(301\302)问题

weixin_60770989的博客

04-24

693

自定义下载中间件可以让我们在遇到重定向时重新发起请求。# 当状态码为301或302时，重新发起请求# 其他状态码直接返回响应。

scrapy框架中settings文件中的参数详解,scrapy反反爬虫常用的一些方法以及解决爬虫过程中网页url重定向的问题

manfanying的博客

02-23

1781

scrapy框架中settings文件中的参数详解,scrapy反反爬虫常用的一些方法以及解决爬虫过程中网页url重定向的问题

Scrapy爬取知乎热榜信息

qq_44264058的博客

03-22

1008

前两周去学习了一下Django，由于第一次接触设计模式，对于mvc设计模式还是很陌生的，花了大约一周的时间才大概熟悉了整个工作流程，第二周学会了写一些简单的网站应用，原本自己定好目标是要两周学会一个框架的，但是整网站要搞服务器，还要域名备案什么的，怪麻烦的，两周时间过去，还是没有做一个完整的Django项目，也就没脸跑去写博客来记录了。但还是不得不继续学习我计划中的下一个框架——Scrapy，从3.15到今天3.21号已经正好过去一周了，我花了四到五天的时间看完了一本半的书，周五晚上熬了个夜最终把整个scr

scrapy爬取微博评论

09-06

然而，微博对于爬虫的反爬措施比较严格，因此在爬取过程中可能会遇到一些问题。微博会自动跳转到评论比较少的页面，导致爬取的评论数量不多。此外，微博还会检测到爬虫程序并采取一些措施来防止爬取。为了应对网站...

【python 爬虫】 scrapy 入门--爬取百度新闻排行榜

流年颜的博客

05-17

2355

使用scrapy框架爬取网站《乌龟量化》的股票信息遇到的一些问题即暂时的解决方案

weixin_45431507的博客

08-05

4280

1.登陆过程中遇到的问题本人想采用第一种登陆方式登陆账号，点击《登陆方式一：账号密码》，就会出现账号密码的输入框。但是网页的网址没有任何改变。所以想使用post请求直接将账号密码传送过去，但是却直接被决绝访问了。返回的是’服务器明白我的意思，但是拒绝访问‘。没办法，只能采用万能的方法了，使用selenium登陆之后再传回cookie进行登陆之后的页面解析行为。 2.cookie的传递过程中遇到的问题传递了cookie之后，红色框框的数据全部都能访问到（不传递cookie的话只能访问部分），但是黄色框

Scrapy定向爬虫教程(五)——保持登陆状态

热门推荐

孔天逸'Blog

10-15

2万+

本节内容在访问网站的时候，我们经常遇到有些页面必须用户登录才能访问。这个时候我们之前写的傻傻的爬虫就被ban在门外了。所以本节，我们给爬虫配置cookie，使得爬虫能保持用户已登录的状态，达到获得那些需登录才能访问的页面的目的。由于本节只是单纯的想保持一下登陆状态，所以就不写复杂的获取页面了，还是像本教程的第一部分一样，下载个网站主页验证一下就ok了。本节github戳此处。原理一般情况下，网站通过

scrapy 解决302重定向问题

迷途无归的博客

01-08

1万+

单独yield请求时禁用重定向 yield Request(url, meta={ 'dont_redirect': True, 'handle_httpstatus_list': [302] }, callback=self.pars...

python scrapy爬虫 CrawlSpider 拉钩招聘网302重定向问题解决方案 , 修改setting信息，添加cookie请求

lanhaixuanvv的博客

10-15

6247

# -*- coding: utf-8 -*- from datetime import datetime from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from ArticleSpider.items import LagouJobItem, Lagou...

如何防止scrapy爬虫被禁止

京东放养的爬虫

12-15

1万+

根据scrapy官方文档：http://doc.scrapy.org/en/master/topics/practices.html#avoiding-getting-banned里面的描述，要防止scrapy被ban，主要有以下几个策略。 1.动态设置user agent 2.禁用cookies 3.设置延迟下载 4.使用IP地址池（Tor project、VPN和代理IP） 5.

scrapy添加cookie的三种方式

小凤九的博客

12-20

1万+

1.settings settings文件中给Cookies_enabled=False解注释 settings的headers配置的cookie就可以用了这种方法最简单，同时cookie可以直接粘贴浏览器的。后两种方法添加的cookie是字典格式的，需要用json反序列化一下, 而且需要设置settings中的Cookies_enabled=True 2.DownloadMiddleware...

scrapy0.24文档解读之setting配置（二）

wc199422的博客

09-08

764

上一篇写了setting的一部分设置，继续 1：DOWNLOAD_MAXSIZE#设置response大小设置将要下载的response最大size，如果想禁用设置为0 #Default:1073741824 (1024MB) 也可以在爬虫中使用download_maxsize属性设置 2：DOWNLOAD_WARNSIZE #警告还是预告？？的大小 ...

scrapy爬取某网站景区评论爬虫

06-20

### 回答1： Scrapy是一个Python框架，用于基于异步的网络爬虫。它可以使用户更轻松地从互联网上爬取有关特定主题的信息。例如，你可以使用Scrapy爬取某网站的趋势、新闻、保健、交通等方面的信息。为了爬取这个网站上的景区评论，需要使用Scrapy的基本结构。首先，需要定义一个名为Spider的类。这个类包含要抓取的页面的URL，以及URL中找到的每个评论的有关信息。接下来，需要定义一个名为Item的类。这个类包含评论的信息，如评论文本、时间和评分等。Scrapy使用这个类来生成XML和JSON等格式的输出。 Scrapy还将数据存储在名为Items的容器中。在Spider类中，Scrapy使用容器来提取评论，将每个评论的有关信息存储到Item实例中。一旦你已经设置了Spider和Item类，在Scrapy中运行爬虫时，Scrapy将使用这两个类来抓取、解析和存储景区评论网站中的信息。 ### 回答2： Scrapy是一个功能强大的Python网络爬虫框架，它可以让用户针对各种网站的数据进行自动抓取和处理。对于爬取景区景点评论信息而言，Scrapy是一个致力于网页数据挖掘的有力工具。对于一个Scrapy爬虫，基本上都需要完成以下步骤： 1. 定义爬虫种子。即确定要爬取的网站、需要抓取的数据，以及触发爬虫的条件等。 2. 编写网络爬虫。可以根据网站的结构和数据流动情况编写我们需要的数据爬取代码，包括用户评论、评论评分等信息的抓取。 3. 存储数据。将爬取到的数据进行处理，并存储到本地文件或数据库中，以便后续进一步分析。 Scrapy特别适用于大规模的数据爬取和处理，效率高，且可以处理多个线程。因此，如果要爬取某个大型景区的评论数据，相信Scrapy一定能够胜任这项任务。通过获取这些评论数据，我们可以对景区的服务质量进行评估和改善，也可以为其他游客提供更加详细和真实的景区评价。