LiXZe-CSDN博客

原创天天生鲜(Django4.0版本) + 开发遇到的问题及解决

天天生鲜（Django4.0版本）

2022-06-09 21:24:49 9884 2

原创分析5个城市5年间的PM2.5变化情况

本次5个城市10年到15年的PM2.5收集数据来自kaggle：PM2.5 Data of Five Chinese Cities | KaggleMeasurements for Shenyang, Chengdu, Beijing, Guangzhou, and Shanghaihttps://www.kaggle.com/datasets/uciml/pm25-data-for-five-chinese-cities数据分析小练手：1、北京PM2.5美国数据和中国观测站数据对比...

2022-04-21 21:35:41 1858

原创本地上连接到阿里云服务器上的Redis

综合了网上找的几种方法，以下方法适合我自己服务器的系统ubuntu_20_04_x64_20G_alibase_20210927.vhd直接在阿里云服务器开启Redis的6379端口没法直接连接，网上的方法是开启防火墙上的端口，但是找不到iptables的配置路径，所以直接自己写一个。首先是先配置防火墙，Ubuntu20默认有安装。添加配置：vim /etc/iptables.rules*filter:INPUT DROP [0:0]:FORWARD ACCEPT [0:0].

2022-03-28 20:13:17 2452 1

转载 Python Twisted

The Architecture of Open Source Applications (Volume 2): Twistedhttp://www.aosabook.org/en/twisted.html作者：Jessica McKellarTwisted是用Python实现的基于事件驱动的网络引擎框架。Twisted诞生于2000年初，在当时的网络游戏开发者看来，无论他们使用哪种语言，手中都鲜有可兼顾扩展性及跨平台的网络库。Twisted的作者试图在当时现有的环境下开发游戏，这一步走的非常艰难，

2022-03-27 11:19:58 1253

原创 tesseract库及训练数据下载安装

不需要去GitHub上翻墙下载：Index of /tesseracthttps://digi.bib.uni-mannheim.de/tesseract/有最新版本下载完后在系统变量Path中设置环境变量：中文的训练数据在fast文件夹下面：chi_simtraineddata，并把它放在tesseracr文件夹下的tessdata文件夹中。命令行查看一下：需要指定语言时：...

2022-03-20 10:49:40 2820

原创爬虫实现中英文的词语和句子互译

python爬取百度翻译结果，需要发送俩次请求。一次是请求获取输入的语言类型，然后是拿着获取到的语言类型发送下一次请求，获取翻译的结果。先输入英文“hello”，获取结果可以发现，输入后返回的翻译结果在这个文件中，接着输入中文“爬虫”进行翻译发现页面没有重新加载，所以这是由动态页面加载，网址只有from和to后面发生变化，可以猜测后面的元素就是原先语言的类型和想要翻译的类型，而且这是个post请求方式，所以查看一下post的数据部分post的data部分俩..

2022-03-14 20:23:19 2461 3

原创 2022年爬取拉勾网详情页面地址信息

众所周知，拉勾网的反爬机制一直做的很好，前些年还可以通过找到网页源代码找到岗位详情页面的地址，而现在拉勾网的详情页面地址直接没了，这就很奇怪，那么鼠标点击他又是如何跳转到别的页面点开源代码中，每一个职位都包含在<div class="item__10RTO">，但就是没有对应的地址信息，但我们点开每个岗位信息可以看到，地址中唯一有变化的就是html前面的数字。所以现在的问题是找到前面的数字存在了什么地方，直接搜索:点开第一个，这里有个key值.

2022-03-09 21:37:01 1342 1

原创异步和非阻塞的区别(锁)

在提到异步的时候经常也提到非阻塞阻塞和非阻塞指的是某个过程，同步和非同步指的是整个过程。值得一提的是，这里的同步和异步并不是字面上的意思，现实生活中的同步意思是同时发生几件事，异步现实生活中指的是间接而不连续地发生。而计算机里的同步却是现实生活中的异步，计算机中的异步则是现实生活中的同步。这里扯一下线程进程的同步。这里的同步，就是协同步调，按预定的先后次序进行运行。如:你说完，我再说。"同"字从字面上容易理解为一起动作其实不是，"同"字应是指协同、协助、互相配合。如进程、

2022-03-02 23:43:29 293

原创中国镜像站地址（原淘宝镜像站地址）

访问速度快npmmirror 中国镜像站https://npmmirror.com/

2022-03-02 15:45:28 792

原创 chromedriver与chrome各版本及下载地址(解决第一次使用selenium.webdriver.Chrome()报错)

Selenium从2升级到3之后呢，Selenium 3 相较于2最大的变化就是更加的标准化，可以支持更多的浏览器。那我们做自动化的时候如果用的是selenium3的话，首先要做的就是下载不同浏览器的驱动。现在的驱动都是由各大浏览器自己更新提供。本人在写爬虫时第一次使用webdriver.Chrome时报了错，而且如果用网上的方法在声明时加入chorme.exe的地址，driver = webdriver.Chrome(r'D:/Google/Chrome/Application/chrome.e

2022-03-01 20:16:23 7360

转载 Queue队列中的join()和task_done()的关系

用消费者生产者问题来解释首先。Queue队列中的join()和task_done()是配合使用的代码解释#关于tase_done()的作用：只有消费者把队列所有的数据处理完毕，queue.join()才会停止阻塞import timefrom queue import Queuefrom threading import Threadq = Queue()def produce(): for i in range(10): q.put(i) prin

2022-03-01 10:11:43 1184 1

原创实现爬虫的基本套路

实现爬虫的套路准备url准备start_urlurl地址规律不明显，总数不确定通过代码提取下一页的urlxpath寻找url地址，部分参数在当前的响应中（比如，当前页码数和总的页码数在当前的响应中）准备url_list页码总数明确url地址规律明显发送请求，获取响应添加随机的User-Agent,反反爬虫添加随机的代理ip，反反爬虫在对方判断出我们是爬虫之后，应该添加更多的headers字段，包括cookiecookie的处理可以使用session

2022-02-27 23:05:15 112