
Python爬虫
文章平均质量分 50
笔记
卖山楂啦prss
数据分析师——唯有知识,让我们免于平庸
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python 携程、去哪儿游记爬取
携程import timeimport requestsfrom lxml import etreefrom multiprocessing.dummy import Poolfrom requests.exceptions import RequestExceptionimport openpyxlimport refrom fake_useragent import UserAgentdef get_one_page(url): try: res = req原创 2021-11-05 10:46:44 · 4010 阅读 · 5 评论 -
招标信息数据整理
import timeimport requestsfrom lxml import etreefrom multiprocessing.dummy import Poolfrom requests.exceptions import RequestExceptionimport openpyxlfrom fake_useragent import UserAgentfrom urllib.parse import urlencodeimport pandas as pdimport o原创 2021-04-27 08:55:16 · 848 阅读 · 1 评论 -
PySpider 实现输入数学题目(latex)得到对应答案并存入MongoDB
接上一篇Python 实现输入积分题目(latex)得到对应答案并将结果存入json对其进行改进首先在 MongoBD 中创建如下结果的表{ "导数": [ { "一阶导数": [ {"题目": "答案"} ], "二阶导数": [ {"题目": "答案"} ] } ], "积分": [ { "定积分": [ {"题目":原创 2021-02-03 19:57:54 · 406 阅读 · 0 评论 -
PySpider 数据存储到mongoDB中
启动 PySpider打开浏览器,在地址栏输入:http://localhost:5000/原创 2021-02-02 22:29:02 · 304 阅读 · 0 评论 -
PySpider 框架基本使用(存入MYSQL)
1.pyspider介绍一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。功能强大的WebUI,包含脚本编辑器,任务监视器,项目管理器和结果查看器。Pyspider框架:多线程处理去重处理错误重试结果监控PyQuery提取代码简洁WebUI管理JavaScript渲染pyspider启动服务,进入WebUI界面使用之前,先降低 tornado 版本(原创 2021-02-01 22:17:25 · 1363 阅读 · 1 评论 -
Python 腾讯接口之全球/全国疫情数据获取
# 全国数据import jsonimport requestsimport pandas as pdurl_name = 'https://api.inews.qq.com/newsqa/v1/query/inner/publish/modules/list?modules=chinaDayList,chinaDayAddList,nowConfirmStatis,provinceCompare'html_name = requests.get(url_name)data_name=jso原创 2021-01-31 18:44:28 · 2231 阅读 · 0 评论 -
Python 实现输入积分题目(latex)得到对应答案并将结果存入json
原网站https://zs.symbolab.com/solver/calculus-calculator/%5Cint%20e%5E%7Bx%7Dcos%5Cleft(x%5Cright)dx做的很简单,只提供代码import requestsimport jsonimport matplotlib.pyplot as pltimport urllib# 存入json# key就是题目,value就是答案begin = {'题目':'答案'}with open('math.jso原创 2021-01-31 12:02:31 · 595 阅读 · 0 评论 -
Pyspider框架 6 步安装过程以及解决安装pyspider后jupyter启动为空白
Pyspider框架:多线程处理去重处理错误重试结果监控PyQuery提取代码简洁WebUI管理JavaScript渲染文章目录1 安装2 将async 替换为 shark3 修改wsgidav版本4 解决werkzeug版本问题5 安装phantomjs6 修改webdav.py文件1 安装pip install -i http://pypi.douban.com/simple --trusted-host pypi.douban.com pyspider检验是否安装成功,在原创 2021-01-22 22:27:19 · 669 阅读 · 1 评论 -
蛋壳公寓信息/信息网爬取/小猪短租/豆瓣/拉钩/人民邮电报/百度电视剧/加载更多-获取字符串中间任意内容
调试import requestsfrom lxml import etreebase_url = 'https://www.danke.com/room/bj?page=1'headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)' +'Chrome/62.0.3202.94 Safari/537.36'}res = r原创 2020-11-23 16:34:44 · 5667 阅读 · 0 评论 -
Python 爬虫:跳转页面时,网页链接(url)不变,XHR中的含有网页信息的文件链接(url)不变,解决办法
转载自:https://blog.csdn.net/weixin_44606217/article/details/98629593 解决办法在文末 问题: 第一页和第二页网址相同(不变) XHR中包含网页信息的文件链接地址相同(不变) 分析: 点开上图中的.ashx文件(注意:此文件包含网页信息,别的网站可能为js文件)发现,文件中含有字段:PageCount和pageIndex,分别代表总页数转载 2020-10-22 23:32:21 · 1226 阅读 · 0 评论 -
python爬虫--如何爬取翻页url不变的网站
…转载 2020-10-22 23:15:25 · 10972 阅读 · 0 评论 -
2020-10-11(爬虫)
import timeimport requestsfrom lxml import etreefrom multiprocessing.dummy import Poolfrom requests.exceptions import RequestExceptionimport openpyxldef get_one_page(url): try: res = requests.get(url,headers = headers) if res.sta原创 2020-10-11 14:10:09 · 191 阅读 · 2 评论 -
Python 抓取数据写入Mysql 以及读取为Dataframe
# -*- coding: utf-8 -*-"""Created on Wed Sep 30 21:07:58 2020@author: Administrator"""import osimport timeimport requestsfrom lxml import etreefrom multiprocessing.dummy import Poolfrom requests.exceptions import RequestExceptionimport xlwti原创 2020-10-01 09:25:10 · 855 阅读 · 0 评论 -
简单爬虫
import osimport timeimport requestsfrom lxml import etreefrom multiprocessing.dummy import Poolfrom requests.exceptions import RequestExceptionimport xlwtimport xlrdfrom xlutils.copy import copyclass ExcelUtils(object): #工具类的方法:不适用外部变量 #静原创 2020-09-17 15:27:24 · 475 阅读 · 4 评论 -
Web Scraper
北京人才网第一页链接:https://jobs.51job.com/beijing/p1/第二页链接:https://jobs.51job.com/beijing/p2/爬取前5页原创 2020-06-23 17:33:29 · 1860 阅读 · 1 评论 -
Python爬取QQ音乐评论数据
转载自: CDA数据分析师文章目录1、数据获取2、数据处理3、数据可视化1、数据获取https://y.qq.com/n/yqq/album/0009C3rp3Kfwg0.html#comment_box评论区的内容是被封装在json中复制此条json数据,放到在线json解析中分析数据结构comment_list = json_data['comment']['commentlist']# 昵称nick_name = [i.get('nick') for i in comm转载 2020-06-21 14:37:31 · 6915 阅读 · 9 评论 -
利用python爬取博客信息并保存在Excel中
只放代码import re,json,requestsfrom lxml import etreeimport xlwt# 分页# 找页码变化的规律for i in range(1,6): base_url = 'https://blog.csdn.net/qq_42374697/article/list/%s'%(i) headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap原创 2020-06-12 12:14:13 · 525 阅读 · 0 评论 -
Scrapy框架
一、Scrapy简介Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。功能:爬虫框架,可以简单快速的实现一个爬虫。优势:爬取速度很快,底层是通过异步框架来实现的。(1)spiders组件:爬虫组件爬虫程序中,主要可以总结为两部:获取url请求,返回response处理(2)Scrapy Engine(引擎):负责Spider原创 2020-06-11 18:14:30 · 385 阅读 · 0 评论 -
python爬虫学习
爬虫知识学习笔记文章目录一、爬虫的分类二、爬虫的准备工作三、http协议四、requests模块1、使用步骤2、requests get方法response对象例子1:获取百度产品页面例子2:获取新浪新闻页面分页如何实现?例子3:爬取贴吧中前十页的内容保存到本地3.requests post请求例子4:破解百度翻译,做到可以查询任意单词效果五、数据的分类1、分类(1)结构化数据:能用关系型数...转载 2020-05-22 22:05:54 · 8784 阅读 · 1 评论 -
Python爬虫之爬取学校所有新闻标题并做成词云分析
1、获取数据并导入excel中多线程爬取数据,存入excel中import threadingimport timefrom queue import Queueimport time,osfrom selenium import webdriverfrom lxml import etreefrom selenium.webdriver.support.wait import ...原创 2020-04-29 11:31:35 · 4155 阅读 · 0 评论 -
用Python(selenium)爬取重庆统计年鉴信息
import time,osfrom selenium import webdriverfrom lxml import etreeimport requestsdef downloads_excel(excel_url, year, name): get_excel = requests.get(str(excel_url)) save_file_path = ...原创 2020-04-24 11:00:39 · 2093 阅读 · 1 评论