自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 天天生鲜(Django4.0版本) + 开发遇到的问题及解决

天天生鲜(Django4.0版本)

2022-06-09 21:24:49 9884 2

原创 分析5个城市5年间的PM2.5变化情况

本次5个城市10年到15年的PM2.5收集数据来自kaggle:PM2.5 Data of Five Chinese Cities | KaggleMeasurements for Shenyang, Chengdu, Beijing, Guangzhou, and Shanghaihttps://www.kaggle.com/datasets/uciml/pm25-data-for-five-chinese-cities数据分析小练手:1、北京PM2.5美国数据和中国观测站数据对比...

2022-04-21 21:35:41 1858

原创 本地上连接到阿里云服务器上的Redis

综合了网上找的几种方法,以下方法适合我自己服务器的系统ubuntu_20_04_x64_20G_alibase_20210927.vhd直接在阿里云服务器开启Redis的6379端口没法直接连接,网上的方法是开启防火墙上的端口,但是找不到iptables的配置路径,所以直接自己写一个。首先是先配置防火墙,Ubuntu20默认有安装。添加配置:vim /etc/iptables.rules*filter:INPUT DROP [0:0]:FORWARD ACCEPT [0:0].

2022-03-28 20:13:17 2452 1

转载 Python Twisted

The Architecture of Open Source Applications (Volume 2): Twistedhttp://www.aosabook.org/en/twisted.html作者:Jessica McKellarTwisted是用Python实现的基于事件驱动的网络引擎框架。Twisted诞生于2000年初,在当时的网络游戏开发者看来,无论他们使用哪种语言,手中都鲜有可兼顾扩展性及跨平台的网络库。Twisted的作者试图在当时现有的环境下开发游戏,这一步走的非常艰难,

2022-03-27 11:19:58 1253

原创 tesseract库及训练数据下载安装

不需要去GitHub上翻墙下载:Index of /tesseracthttps://digi.bib.uni-mannheim.de/tesseract/有最新版本下载完后在系统变量Path中设置环境变量:中文的训练数据在fast文件夹下面:chi_simtraineddata,并把它放在tesseracr文件夹下的tessdata文件夹中。命令行查看一下:需要指定语言时:...

2022-03-20 10:49:40 2820

原创 爬虫实现中英文的词语和句子互译

python爬取百度翻译结果,需要发送俩次请求。一次是请求获取输入的语言类型,然后是拿着获取到的语言类型发送下一次请求,获取翻译的结果。先输入英文“hello”,获取结果可以发现,输入后返回的翻译结果在这个文件中,接着输入中文“爬虫”进行翻译发现页面没有重新加载,所以这是由动态页面加载,网址只有from和to后面发生变化,可以猜测后面的元素就是原先语言的类型和想要翻译的类型,而且这是个post请求方式,所以查看一下post的数据部分post的data部分俩..

2022-03-14 20:23:19 2461 3

原创 2022年爬取拉勾网详情页面地址信息

众所周知,拉勾网的反爬机制一直做的很好,前些年还可以通过找到网页源代码找到岗位详情页面的地址,而现在拉勾网的详情页面地址直接没了,这就很奇怪,那么鼠标点击他又是如何跳转到别的页面点开源代码中,每一个职位都包含在<div class="item__10RTO">,但就是没有对应的地址信息,但我们点开每个岗位信息可以看到,地址中唯一有变化的就是html前面的数字。所以现在的问题是找到前面的数字存在了什么地方,直接搜索:点开第一个,这里有个key值.

2022-03-09 21:37:01 1342 1

原创 异步和非阻塞的区别(锁)

在提到异步的时候经常也提到非阻塞阻塞和非阻塞指的是某个过程,同步和非同步指的是整个过程。值得一提的是,这里的同步和异步并不是字面上的意思,现实生活中的同步意思是同时发生几件事,异步现实生活中指的是间接而不连续地发生。而计算机里的同步却是现实生活中的异步,计算机中的异步则是现实生活中的同步。这里扯一下线程进程的同步。这里的同步,就是协同步调,按预定的先后次序进行运行。如:你说完,我再说。"同"字从字面上容易理解为一起动作其实不是,"同"字应是指协同、协助、互相配合。如进程、

2022-03-02 23:43:29 293

原创 中国镜像站地址(原淘宝镜像站地址)

访问速度快npmmirror 中国镜像站https://npmmirror.com/

2022-03-02 15:45:28 792

原创 chromedriver与chrome各版本及下载地址(解决第一次使用selenium.webdriver.Chrome()报错)

Selenium从2升级到3之后呢,Selenium 3 相较于2最大的变化就是更加的标准化,可以支持更多的浏览器。那我们做自动化的时候如果用的是selenium3的话,首先要做的就是下载不同浏览器的驱动。现在的驱动都是由各大浏览器自己更新提供。本人在写爬虫时第一次使用webdriver.Chrome时报了错,而且如果用网上的方法在声明时加入chorme.exe的地址,driver = webdriver.Chrome(r'D:/Google/Chrome/Application/chrome.e

2022-03-01 20:16:23 7360

转载 Queue队列中的join()和task_done()的关系

用消费者生产者问题来解释首先。Queue队列中的join()和task_done()是配合使用的代码解释#关于tase_done()的作用:只有消费者把队列所有的数据处理完毕,queue.join()才会停止阻塞import timefrom queue import Queuefrom threading import Threadq = Queue()def produce(): for i in range(10): q.put(i) prin

2022-03-01 10:11:43 1184 1

原创 实现爬虫的基本套路

实现爬虫的套路准备url准备start_urlurl地址规律不明显,总数不确定通过代码提取下一页的urlxpath寻找url地址,部分参数在当前的响应中(比如,当前页码数和总的页码数在当前的响应中)准备url_list页码总数明确url地址规律明显发送请求,获取响应添加随机的User-Agent,反反爬虫添加随机的代理ip,反反爬虫在对方判断出我们是爬虫之后,应该添加更多的headers字段,包括cookiecookie的处理可以使用session

2022-02-27 23:05:15 112

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除