二十四、在scrapy中如何获取cookies

最新推荐文章于 2025-01-13 00:17:10 发布

Norni

最新推荐文章于 2025-01-13 00:17:10 发布

阅读量504

点赞数

CC 4.0 BY-SA版权

文章标签： cookie python servlet http session

本文链接：https://blog.csdn.net/Norni/article/details/115714605

该博客介绍了如何在Scrapy爬虫中使用CookieJar来提取和管理cookies。作者展示了如何从响应中提取cookies，并将其转换为字典格式进行查看。内容主要涉及网络爬虫的基础操作，适合初学者了解Scrapy中cookie的处理方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import scrapy


class BaiduSpider(scrapy.Spider):
    name = 'baidu'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        # 通过导入CookieJar来实现cookie的获取
        from scrapy.http.cookies import CookieJar
        cookie_jar = CookieJar()
        cookie_jar.extract_cookies(response, response.request)
        print(cookie_jar)  # <scrapy.http.cookies.CookieJar object at 0x7f8888a0f940>
        cookie_dict = dict()
        for k, v in cookie_jar._cookies.items():
            for i, j in v.items():
                for m, n in j.items():
                    cookie_dict[m] = n.value
        print("cookie_dict>>>", cookie_dict)
        # cookie_dict>>> {'BDSVRTM': '0', 'BD_HOME': '1', 'H_PS_PSSID': '32293_1465_31669_32380_32359_31254_32046_32116_26350'}