
node爬虫
文章平均质量分 92
神奇大叔
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
node 拦截器拦截请求下载电子书以及等待前端渲染操作、浏览器操作
1、因为下载资源是通过点击事件来ajax请求的,无法在页面看到a标签链接2、通过拦截器来拦截3、等待前端渲染完成后(类挂载后)获取数据 await page.waitForSelector('选择器'); 4、监听请求事件是否完成 page.on('requestfinished',function(req){ console.log(req.url()); ...原创 2020-03-16 15:39:15 · 521 阅读 · 0 评论 -
node puppeteer拦截谷歌请求、设置浏览器响应-爬取电子书链接
拦截谷歌请求: (1)拦截谷歌请求,使用后会激活会激活 request.abort, request.continue 和 request.respond 方法。 await page.setRequestInterception(true); (2)监听request事件,对请求做出操作 一旦启用请求拦截,每个请求都将停止,除非它继续,响应或中止 page.on(...原创 2020-03-15 22:13:33 · 3027 阅读 · 0 评论 -
node puppeteer操作页面、获取页面内容
1、获取页面内容,获取dom对象使用,page.$$eval()/$eval 本身是个promise对象,await 获取回调函数的返回值 其中: let x=await page.$/$$eval('选择器',回调函数(参数是dom对象)) 2、对页面进行点击等模拟用户操作,使用page.$()/page.$$(),返回一个ElementHandle,封装了事件方法 ...原创 2020-03-14 15:37:25 · 10775 阅读 · 0 评论 -
node puppeteer库爬虫配置(爬取普通请求无法访问的网站)
puppeteer(1)主要用了爬取数据和测试网站性能(2)异步配置安装 cnpm install puppeteer -Dasync function test(){打开浏览器的配置 let options={ //使用无头模式,默认为有头(true为无界面模式) headless:false, //设置打开页面在浏览器中的宽高 defaultViewpor...原创 2020-03-13 22:32:40 · 587 阅读 · 0 评论 -
node 爬取资源放在返回的数据中-音乐
爬取的音乐网站页面源代码无数据,数据在返回的资源中在返回数据中,找到所要资源,在Headers中找到请求的地址爬取音乐步骤:获取音乐src等信息->按流的方式请求src地址,再流写入文件代码示例:const axios=require('axios')const fs=require('fs')const path=require('path')//获取单个页面数据...原创 2020-03-13 20:59:38 · 509 阅读 · 0 评论 -
node cheerio爬虫图片
cherrio 获取html文档内容,操作和jquery一样cnpm install cheerio -D使用let $=cheerio.load(请求来的html内容);获取属性$(dom对象/选择器).attr('属性');图片的下载(1)获取图片src地址(2)通过流式请求src地址,获取图片 axios.get(imgUrl,{responseType:'stre...原创 2020-03-13 09:16:18 · 600 阅读 · 0 评论 -
node 爬虫
爬的电影网站通过异步请求获取到页面资源后再正则选定爬取,正则.exec(内容),只匹配一次,返回数组,匹配多次需要循环正则爬取分类栏a标签href->正则匹配每个页面中的电影链接,再根据传入的分类栏href,遍历href获取所有分类栏电影链接->正则匹配电影详情需要的内容,遍历电影链接,获得所有电影内容代码示例:let url=require('url')let ax...原创 2020-03-12 17:38:12 · 320 阅读 · 1 评论