1、创建对象
- 将HTML的文档字符串传给Selector构造器方法的text参数
from scrapy.selector import Selector
text = "" #这是HTML文档内容,此处省略掉
selector = Selector(text=text)
- 使用一个Response对象构造Selector对象,将其传给Selector构造器方法的response参数
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
response = HtmlResponse(url="www.baidu.com",encoding="utf-8")
selector = Selector(response=response)
2、选中数据
在括号中传入相应的xpath或者css选择器表达式
selector.xpath()
selector.css()
3、提取数据
- extract()
返回选中内容的Unicode字符串 - re()
使用正则表达式选中内容中的某部分 - extract_first() (SelectorList对象转有)
返回第一个Selector调用extract()方法的结果 - re_first() (SelectorList对象转有)
返回第一个Selector调用re()方法的结果