
爬虫
文章平均质量分 51
小羽飞
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
简单的爬虫实现
现在呢我们使用python进行简单的百度贴吧的数据爬去 主要是比较简单我们使用requests模块 没有的小伙伴去下载一个 cmd打开输入pip install requests首先呢我们要对所要爬取的网页进行接口分析 找到其中的规律,在进行下一步 :python贴吧的地址'http://tieba.baidu.com/f?ie=utf-8&kw=pyth...原创 2019-04-26 17:33:36 · 310 阅读 · 0 评论 -
爬虫常用环境安装
1:urllib urllib.request这两个库是python自带的库,不需要重新安装,在python中输入如下代码:import urllibimport urllib.requestresponse=urllib.request.urlopen("http://www.baidu.com")print(response)返回结果为HTTPResponse的对象:...原创 2019-05-12 16:24:46 · 603 阅读 · 1 评论 -
使用线程方式对腾讯招聘进行数据抓取
之前说过腾讯招聘的数据爬取,但是效率实在是有一些低,这样 ,今天我们使用多线程的方式来爬取数据,然后先简单回顾一下多线程多线程类似于同时执行多个不同程序,多线程运行有如下优点:使用线程可以把占据长时间的程序中的任务放到后台去处理。用户界面可以更加吸引人,这样比如用户点击了一个按钮去触发某些事件的处理,可以弹出一个进度条来显示处理的进度程序的运行速度可能加快在一些等待的任务实现上如...原创 2019-05-12 19:17:12 · 384 阅读 · 0 评论 -
多线程爬取,效率提升很多哦
继续优化腾讯招聘的代码,这样我们使用多线程其中的不同和需要注意的地方我都做了标识和注释,直接给大家代码吧 ,修改的地方不是很多,大家自己对照import randomimport threadingimport requestsimport jsonfrom queue import Queueimport time# 第一步 写子类 需要继承父类THREAD 类 复写r...原创 2019-05-12 19:26:11 · 646 阅读 · 0 评论 -
爬取我爱我家租房信息时 问题总结(付代码)
最近一直在联系爬虫,所以对一些网站抓取信息是遇到了问题,这里总结一下我爱我家的问题在以往的练习时,xpath是我最常用的方法,这次也不例外好的,我们开始爬取数据第一步 ,接口查找https://bj.5i5j.com/zufang/我们需要按照不同区域爬取,增加一点难度第一个问题,我们在爬取时会第一步就遇到了界面访问不进去的问题访问进去是一个空界面,或者根本访问不进去...原创 2019-05-12 21:37:31 · 1359 阅读 · 2 评论 -
使用scrapy 框架来抓取100部美剧的信息
在开始爬取之前,必须创建一个新的 Scrapy 项目。进入自定义的项目目录中,运行下列命令:创建项目命令scrapy startproject 项目名称切换到项目下cd 项目名称目录同时找到项目所见的文件夹 ,使用pycharm打来开(我用的是pycharm) 大致结构如下下面来简单介绍一下各个主要文件的作用:scrapy.cfg :项目的配置文件mySpid...原创 2019-05-18 15:19:39 · 902 阅读 · 0 评论 -
对于scrapy框架的一些补充
Item Pipeline当 Item 在 Spider 中被收集之后,它将会被传递到 Item Pipeline,这些 Item Pipeline 组件按定义的顺序处理 Item。每个 Item Pipeline 都是实现了简单方法的 Python 类,比如决定此 Item 是丢弃而存储。以下是 item pipeline 的一些典型应用:验证爬取的数据(检查 item 包含某些字段,比...原创 2019-05-18 15:30:38 · 285 阅读 · 0 评论 -
scrapy的日志功能 Logging
Logging1、Scrapy 提供了 log 功能,可以通过 logging 模块使用。可以修改配置文件 settings.py,任意位置添加下面两行,效果会清爽很多。LOG_FILE = "meiju.log"LOG_LEVEL = "INFO"Log levelsScrapy 提供 5 层 logging 级别:CRITICAL - 严重错误(cri...原创 2019-05-18 15:34:59 · 3035 阅读 · 0 评论 -
在爬取网站中的代理设置,爬虫利器
requests 下的代理使用使用代理 IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。很多网站会检测某一段时间某个 IP 的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个 IP 的访问。所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算 IP 被禁止,依然可以换个 IP 继续爬取。requestsProxyHandler ...原创 2019-05-18 15:52:09 · 871 阅读 · 0 评论 -
urllib 的异常错误处理(总结)
在我们用 urlopen 或 opener.open 方法发出一个请求时,如果 urlopen 或 opener.open 不能处理这个 response,就产生错误。 这里主要说的是 URLError 和 HTTPError,以及对它们的错误处理。一、URLError URLError 产生的原因主要有: 没有网络连接 、服务器连...原创 2019-05-18 15:57:29 · 5122 阅读 · 0 评论 -
反爬虫判断方法
1 最简单的网站反爬虫方法----根据 User-Agent 判断是否是爬虫1.新建一个 Flask 项目2.网站对于用户请求的响应处理,代码如下:在默认的 unspider.py 文件中输入如下代码from flask import Flask,requestapp = Flask(__name__)def isSpider(): user_agent = ...原创 2019-06-16 14:04:39 · 6222 阅读 · 0 评论 -
使用无界面方式登录人人网
在上一篇提到,使用无界面的方式搜索,查找,此篇是做一个复习同样,先导入selenium模块from selenium import webdriverimport timedriver = webdriver.PhantomJS(executable_path=r'd:\Desktop\phantomjs-2.1.1-windows\bin\phantomjs.exe')首先,获...原创 2019-05-12 16:04:30 · 837 阅读 · 0 评论 -
使用无界面的方式对斗鱼进行爬取
在这里我们需要使用到一个模块,selenium selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很...原创 2019-05-12 15:34:46 · 553 阅读 · 0 评论 -
让我们来抓取下斗鱼的直播信息吧!!!
斗鱼是大家常用的直播网站,相信大家也有喜欢的主播,那么我们今天使用之前提到的xpath方式来将斗鱼的各大主播的房间信息拿到第一步 ,我们先来分析一下斗鱼,直播分类中的房间信息列表页接口觉得今天的MSI不能错过!!!!!!!!!!接口url = 'https://www.douyu.com/directory/all'我们就准备爬取此界面直播下的房间内容这里就不做分页...原创 2019-05-11 15:15:21 · 1994 阅读 · 0 评论 -
对于简单爬虫的补充(汉字转码)
在上一篇提到,接口地址可能有许多参数,但是如果我们将c或者python换成汉字会怎样?这个时候直接拼接url方法将不适用,所以我们引入字典作为参数para_dic = { "kw":"还珠格格", 'pn':0}进行抓取数据url = "http://tieba.baidu.com/f"response = requests.get(url,params=pa...原创 2019-04-26 17:44:37 · 376 阅读 · 0 评论 -
使用cookie和session对页面进行爬取
当我们所需要爬取的数据需要验证登录时,则会用到post的请求方式来进行登录,比如我们今天爬取开心网界面的信息使用cookie进行抓取数据找到对应界面,我们需要找到登录所需要的关键字段的信息,即账户和密码的字段id,name,class(优先级)等同时因为我们提交上的信息是在一个表单中,我们还要找到对应的表单中的action登陆成功以后 我们则需要首页,或者其他界面...原创 2019-04-26 19:24:37 · 1191 阅读 · 0 评论 -
知识回顾:python中的异常处理
在写爬虫程序时遇到一些错误,导致我们的项目不能继续运行下去,所以想到了抛出异常这种方式来使程序继续运行,并且将爆出的错误写入文本,方便我们来解决1 什么是异常当python检测到一个错误时,解释器会指出当前语句已经无法继续执行下去,这个时候就出现了异常但是,异常是程序出现错误之后而在正常流程控制意外采取的行为检测和处理异常检测异常和处理异常有两种主要的形式:try-e...原创 2019-04-26 20:10:03 · 562 阅读 · 0 评论 -
python 自定义异常和异常捕捉
异常捕捉:try: XXXXX1 raise Exception(“xxxxx2”) except (Exception1,Exception2,……): xxxx3else: xxxxx4finally: xxxxxxx51.raise 语句可以自定义报错信息,如上。2. raise后的语句是不会被执行了,因为已经抛出异常,控制流将...转载 2019-04-26 20:18:02 · 1597 阅读 · 0 评论 -
http响应状态码参考
1XX:信息,指的是客户端发起请求,等待服务器处理这样的信息, 常见的: 100:Continue服务器接收到部分请求,但是一旦服务器并没有拒绝该请求,客户应继续发送其余的请求 101:Switching Protocols服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。2XX:成功,程序员最希望看到的状态码,常见的有:...原创 2019-04-26 20:37:10 · 254 阅读 · 0 评论 -
使用爬虫技巧对有道词典网站进行操作
有道词典的网站的措施做的还是不错的,今天我们的任务就是把它的功能拿到pycharm里面来实现首先 我们导入requests模块接下来进行接口分析找到真的接口url添加a添加m但是直接请求却不能成功所以,应该是在某个地方上有所不同,才会出现这样的结果,所以重新进行分析根据经验,像这种表单数据应该出自一人之手,所以我们可以在js文件中找类似的数...原创 2019-04-27 20:29:33 · 399 阅读 · 0 评论 -
爬取豆瓣电影剧情片排行榜
学习到request模块,我们使用学到的技巧来抓取豆瓣电影的排行榜1 分析接口'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=20&limit=20''https://movie.douban.com/j/chart/top_list?t...原创 2019-04-27 21:11:25 · 1333 阅读 · 0 评论 -
Xpath 文档的使用
一、什么是 XPath?XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML文档中对元素和属性进行遍历。W3School 官方文档:http://www.w3school.com.cn/xpath/index.asp二、XPath 开发工具开源的 XPath 表达式编辑工具:XMLQuire(XML 格式文件可用)Chro...原创 2019-05-04 22:18:27 · 844 阅读 · 0 评论 -
对糗事百科的搞笑段子的抓取
对于这些搞笑段子来说,正常的爬取手段已经不能够顺利的抓取到了,所以我们经过分析之后,对爬取的界面加了一个请求头部和浏览器伪装接下来就使用昨天提到了lxml包进行html树状化来进行作者,好笑数,文章内容,评论数,这四种的数据提取我们首先分析一下需要爬取的内容的树状结构分析之后,共同点都是这个id的之前的值相同,后边的数字不一样所以我们使用contains方法,将...原创 2019-05-05 10:01:41 · 617 阅读 · 0 评论 -
生产者和消费者回顾
生产者与消费者模1. 队列(1) 特点:先进先出(2) python2 VS python3:(3)使用 Python的Queue模块中提供了同步的、线程安全的队列类,包括FIFO(先入先出)队列Queue,LIFO(后入先出)队列LifoQueue,和优先 PriorityQueue。这些队列都实现了锁原语(可以理解为原子操作,即要么不做,要么就做完),能够在多线程...原创 2019-05-14 09:45:30 · 327 阅读 · 0 评论 -
scrapy框架的介绍
scrapy框架简介Scrapy 是用纯 Python 实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是 Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现...原创 2019-05-14 16:33:35 · 547 阅读 · 0 评论 -
ip代理池的构建
import urllib.requestimport urllib.parse import time from multiprocessing import Pool#多进程import randomfrom lxml import etree #xpath提取import datetime#功能:随机获取HTTP_User_Agentdef GetUserAgent(...原创 2019-07-24 16:02:52 · 446 阅读 · 1 评论