爬虫预备知识_若雨溪的博客-CSDN博客

爬虫预备知识

关注

关注数：文章数：6 文章阅读量：3073 文章收藏量：4

作者: 若雨溪

底层安全研究员免责声明：本人分享的下载资源为通过互联网、个人整理等公开合法渠道获取的资料，该资料仅作为阅读交流使用。其版权归原作者或出版方所有，本人不对所涉及的版权问题负法律责任。若原作者、版权方、出版社认为侵权，请通知本人删除。

展开

专栏收录文章

学习爬虫1之python学习spider

首先推荐一个免费的素材网站：www.pexels.com一. python掌握的基本内容概述字符串方法：split()方法、repalce()方法、strip()方法、format()方法。判断语句：if condition: do else: do ...

翻译 2019-04-18 21:38:34 · 252 阅读 · 0 评论
7-8.cookie原理和格式详解

什么是cookie：在网站中，http请求是无状态的。也就是说即使第一次和服务器连接后并且登陆成功后，第二次请求服务器依然不能知道当前请求是哪个用户。cookie的出现就是为了解决这个问题，第一次登陆后服务器返回一些数据（cookie）给浏览器，然后浏览器保存在本地，当该用户发送第二次请求的时候，就会自动的把上次请求存储的cookie数据自动的携带给服务器，服务器通过浏览器携带的数据就能够判断当...

原创 2019-08-05 22:12:12 · 692 阅读 · 0 评论
6.内涵段子--爬虫

内涵段子爬虫实战url链接：http://neihanshequ.com/bar/1/要求：能爬取一页数据即可ProxyHandler处理器（代理设置）很多网站会检测某一段时间某个IP的访问次数（通过流量统计，系统日志等），如果访问次数多的不像正常人的访问，它会禁止这个ip的访问。所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算ip被禁止，依然可以换个ip继续爬取。url...

原创 2019-08-05 21:45:50 · 304 阅读 · 0 评论
5.用Request爬取拉勾网职位信息--爬虫

request.Request类：如果想要在请求时增加一些请求头，那么就必须使用request.Request类来实现。比如要增加一个User-Agent，示例代码如下：from urllib import requestheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWe...

翻译 2019-07-04 16:15:27 · 411 阅读 · 1 评论
4.urlparse和urlsplit函数用法

首先补充一下关于url的组成部分url是Uniform Resource Locator的简写，统一资源定位符一个URL由以下几部分构成：scheme://host:post/path/?query-string=xxxx#anchorscheme：代表的是访问的协议，一般为http或https及ftp等。host：主机名，域名，比如www.baidu.comport：端口号。当你...

翻译 2019-07-04 15:31:15 · 1162 阅读 · 0 评论
3.urlretrieve函数、urlencode函数和parse_qs函数--爬虫

urlretrieve函数：这个函数可以方便的将网页上的一个文件保存到本地。以下代码可以非常方便的将百度的首页下载到本地。from urllib import requestrequest.urlretrieve('http://www.baidu.com/','baidu.html')上面把生成的baidu.html保存在本地。urlencode函数：用浏览器发送请求的时候，如果u...

翻译 2019-07-03 22:33:25 · 253 阅读 · 0 评论

爬虫预备知识

作者: 若雨溪

学习爬虫1之python学习spider

7-8.cookie原理和格式详解

6.内涵段子--爬虫

5.用Request爬取拉勾网职位信息--爬虫

4.urlparse和urlsplit函数用法

3.urlretrieve函数、urlencode函数和parse_qs函数--爬虫