Scrapy学习篇（四）- 笔记整理

最新推荐文章于 2022-06-30 15:19:39 发布

qq_42052864

最新推荐文章于 2022-06-30 15:19:39 发布

阅读量203

点赞数

CC 4.0 BY-SA版权

分类专栏： scrapy 文章标签： scrapy 爬虫 meta scrapy.request scrapy shell

本文链接：https://blog.csdn.net/qq_42052864/article/details/115800445

scrapy 专栏收录该内容

8 篇文章

订阅专栏

笔记~要点

1.爬取下一个链接，提取url，调用scrapy.Request()。scrapy.Request能创建一个requests，同时指定提取数据的callback函数，以及利用meta传递数据

next_page_url = response.xpath("//a[text()="下一页"]/@href").extract()
while len(next_page_url)>0:
    yield scrapy.Request(next_page_url,callback = self.parse)

#scrapy.Request(url,[,callback,method="GET",headers,body,cookits,meta,dont_filter=False])
'''
callback:指定传入的url交给哪个解析函数去处理；
meta:实现在不同的解析函数中传递数据，meta默认会携带部分信息，比如下载延迟，请求深度等；
dont_filter:让scrapy去重不会过滤当前url,scrapy默认有url去重的功能，对需要重复请求的url有用
'''
#meta例子

def parse(self,response):
    '''
    平时解析的代码放这,得到item
    '''
    yield item
    #下一个链接
    yield scrapy.Request(next_url,callback = self.parse,meta={"item":item})

def parse1(self,response):
    #实现item的传递
    item = response.meta["item"]

2.Scrapy深入之认识程序的debug信息

3.Scrapy深入之scrapy shell

Scrapy shell是一个交互终端，可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath表达式

使用方法：scrapy shell http://www.itcast.cn/channel/teacher.shtml
response.url：当前响应的url地址
response.request.url：当前响应对应的请求的url地址
response.headers：响应头
response.body：响应体，也就是html代码，默认是byte类型
response.requests.headers：当前响应的请求头