『scrapy爬虫』02.实战豆瓣小例子（保姆级图文）

最新推荐文章于 2025-07-01 10:52:48 发布

原创

最新推荐文章于 2025-07-01 10:52:48 发布 · 4.1k 阅读

60 ·

CC 4.0 BY-SA版权

文章标签：

#scrapy #爬虫

1. 拿到要抓取的数据

仿照前面的百度,新建豆瓣的spider

scrapy genspider 爬虫文件名 爬虫的url
scrapy genspider douban movie.douban.com

我们的目标网页是https://movie.douban.com/top250,分析网页结构,一个li代表一个电影,用选择器来定位元素,右键电影,审查元素,然后对着li右键复制Selector定位属性
在这里插入图片描述

在我们前面的每个li中,找到span,拿到class为title的span的text属性.
douban.py内容如下

import scrapy
from scrapy import Selector

class DoubanSpider(scrapy.Spider):
    name = "douban"
    allowed_domains = ["movie.douban.com"]# 限制或允许访问的域名列表
    start_urls = ["https://movie.douban.com/top250"] # 起始url

    def parse(self, response):
		myselector=Selector(text=response.text)
        # 拿到了所有的li,也就是所有的电影,每一个li代表一个电影,list_items是由250个电影li组成的list
        list_items=myselector.css("#content > div > div.article > ol > li")
        for list_item in list_items:
            # 电影标题的 Selector
            # content > div > div.article > ol > li:nth-child(1) > div > div.info > div.hd > a > span:nth-child(1)
            list_item.css