
python爬虫
MineYuer
咸鱼大学生
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python3爬取淘女郎图片
selenium+chrome 爬取淘女郎页面 分析https://www.taobao.com/markets/mm/mmku 这个页面,右键查看网页源代码搜索 img 竟然找不到图片标签,可以猜测是ajax异步加载,所以爬取页面难度升级了,目前有两种方法 分析网页请求,写接口来处理 利用selenium 模拟浏览器登录 本次利用第二种方法,需求是先安装selenium 和 chrom原创 2018-01-26 22:31:22 · 951 阅读 · 0 评论 -
python3爬取今日头条(模拟ajax请求)
分析动态页面,模拟ajax请求,爬取街拍美图 分析页面:https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D 右击页面查看源代码,并没有发现每个文章或者是图片的踪迹,那肯定是异步加载啦。打开network监视窗,刷新一下页面,找到XHR异步加载里果然有东西,请求的数据都在data字典里面。现在的任务就是模拟这个异步加载请求。 首原创 2018-01-27 21:42:14 · 9275 阅读 · 0 评论 -
python3抓取猫眼电影(正则表达式)
requests + 正则抓取猫眼电影top列表 分析页面:http://maoyan.com/board/4 目标获取电影标题,演员,上映时间,评分,存到文件里 可以直接在页面中找到电影标题,评分等信息,并且在对应的标签里,可以用bs库抓,或者用正则表达式进行抓取。而排行榜一共有10页,点击一下发现每次都是整页刷新,所以不存在异步加载,而页数和url中的offset参数相关,这样设原创 2018-01-28 15:03:00 · 689 阅读 · 0 评论 -
python3爬取百度百科
爬取百度百科词条并存入mysql 目标是从一个百度百科链接进去,从当前页面寻找所有内链(跳转到当前网站的其他词条),随机挑选一个进入,并重复上述循环 在每个页面里只爬 h1 标题和下面的一段简介 准备工作: 数据库需要三个字段,id,标题,内容 数据库一定要在建立的时候加入 character set utf8 ,不然会引发好多错误 开始爬!! 先找到当前页面的所有原创 2018-01-26 22:58:08 · 1408 阅读 · 0 评论