
爬虫
自己学习笔记,记录学习
V-Sugar
各位博客朋友,本人因工作原因两年内不能更新和回复博客内容,请求谅解 2021年初
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
91job就业知识竞赛题库的爬取
最近呢一个大学生就业知识竞赛(这个需要有需要学生的账号才可以登录)的一个比赛,从这个网站上来看的话,如果你要是自己去看题库的话,是很不容易记住的,而我用的方法是将他的题库用爬虫爬取下来,然后再做的时候就可以直接查看了,今天呢闲下来了就把我之前爬取这个题库的过程写一下吧,仅供学习使用 在网站中找到请求返回数据那个包,如图可以看出是那个question那个包返回的数据,并且里面有我们想要的数据 当我们找到请求返回的响应数据包的位置的时候去查看请求时响应对应的地址和请求时headers携带的数据(由于是原创 2020-10-30 02:55:37 · 2270 阅读 · 0 评论 -
学习爬虫day08
在使用xpath.extract()去出来有空格 crawlspider 的使用 代码在 f005中 判断代理ip是否可用 下载中间件 代码在f005中 scrapy模拟登陆 f006 url不完整的时候 scrapy_redis 使用 request 对象什么时候回入队 scrapy_redis 去重方法 生成指纹 判断数据是否存在redis的集合中,不存在插入 增量爬虫 断点续爬 分布式爬虫 自动获取url地址 re 和 xpath 正则去除多余的字符和空字符串原创 2020-08-19 22:06:58 · 355 阅读 · 0 评论 -
学习爬虫day07
异步和非阻塞的区别 scrapy创建设置 scrapy使用 scrapy 的数据流程 scrapy的使用流程 logging 日志模块 scrapy 中的setting.py中的设置含义 程序中使用setting.py中的变量 pipelines 中的 open_spider 和 close_spider scrapy 中的Item是什么,如何使用 scrapy 如何发送请求 scrapy 如何把数据从一个解析函数传递到另一个,为什么需要这样做原创 2020-08-18 14:14:59 · 316 阅读 · 0 评论 -
学习爬虫day06
Mongodb 使用 - 以集合存储 删除 查询 排序 统计去重 聚合 aggregate $group的注意点 索引 爬虫数据去重,实现增量式爬虫原创 2020-08-17 11:35:11 · 334 阅读 · 0 评论 -
学习爬虫day05
写爬虫代码 selenium使用 selenium使用注意点 验证码识别原创 2020-08-15 22:20:20 · 269 阅读 · 0 评论 -
scrapy爬取数据时爬取到相同的数据
记录在使用scrapy框架的时候爬取到重复的数据原创 2020-08-14 19:19:38 · 2595 阅读 · 0 评论 -
mogodb使用
Mongodb 使用 - 以集合存储 删除 查询 排序 统计去重 聚合 aggregate $group的注意点 索引 爬虫数据去重,实现增量式爬虫原创 2020-08-14 18:04:49 · 378 阅读 · 0 评论 -
windows安装mongodb时出现的错误
MongoDB服务启动不起来的解决方法 1053原创 2020-08-09 16:07:19 · 432 阅读 · 1 评论 -
学习爬虫day04
数据格式 xpath 重点 lxml库使用 lxml使用注意点 实现爬虫的套路 队列原创 2020-08-08 17:30:34 · 298 阅读 · 0 评论 -
爬取豆瓣电视剧数据
这里解决的在爬取豆瓣网站时候值爬取到了一下内容 {"msg": "invalid_request_1284", "code": 1287, "request": "GET \/rexxar\/v2\/subject_collection\/tv_american\/items", "localized_message": ""}原创 2020-08-07 12:08:37 · 2931 阅读 · 1 评论 -
学习爬虫day03
数据分类 json模块的使用 json使用的注意点 正则表达式 正则表达式的注意点 python中的原始字符串 r 的用法原创 2020-08-06 13:17:15 · 141 阅读 · 0 评论 -
学习爬虫day02
使用代理ip 携带cookie请求 使用requests提供的session类来请求登录之后的网站思路 不发送post请求,使用cookie获取登录的页面 获取登录后的页面的三种方式 字典推导式列表推导式 寻找登录的post地址 定位想要的js requests技巧使用 报错后刷新,进行重新运行 parse_url.py 安装第三方模块原创 2020-08-05 11:26:29 · 136 阅读 · 0 评论 -
学习爬虫day01
爬虫的概念 爬虫流程 爬虫要根据当前url地址对应的响应为准,当前url地址的elements的内容和url的响应不一样 页面上的数据在哪里 str bytes 如何转化 requests模块 requests中解决编码解码的方法 保存文件的内容 获取的内容 判断请求是否成功 url 编码原创 2020-08-04 14:36:16 · 315 阅读 · 0 评论