欢迎关注 『scrapy爬虫』 专栏,持续更新中
欢迎关注 『scrapy爬虫』 专栏,持续更新中
1. 拿到要抓取的数据
仿照前面的百度,新建豆瓣的spider
scrapy genspider 爬虫文件名 爬虫的url
scrapy genspider douban movie.douban.com
我们的目标网页是https://movie.douban.com/top250
,分析网页结构,一个li代表一个电影,用选择器来定位元素,右键电影,审查元素,然后对着li右键复制Selector定位属性
在我们前面的每个li中,找到span,拿到class为title的span的text属性.
douban.py内容如下
import scrapy
from scrapy import Selector
class DoubanSpider(scrapy.Spider):
name = "douban"
allowed_domains = ["movie.douban.com"]# 限制或允许访问的域名列表
start_urls = ["https://movie.douban.com/top250"] # 起始url
def parse(self, response):
myselector=Selector(text=response.text)
# 拿到了所有的li,也就是所有的电影,每一个li代表一个电影,list_items是由250个电影li组成的list
list_items=myselector.css("#content > div > div.article > ol > li")
for list_item in list_items:
# 电影标题的 Selector
# content > div > div.article > ol > li:nth-child(1) > div > div.info > div.hd > a > span:nth-child(1)
list_item.css