朱卫军 AI-CSDN博客

原创数据采集必备的6个低代码爬虫工具

无论是需要简单的数据抓取，还是复杂的数据挖掘和分析，市场上的爬虫工具都能提供相应的解决方案。同时，使用爬虫软件时，也应遵守相应的法律法规，尊重数据的版权和隐私。亮数据是一款强大的数据采集工具，以其全球代理IP网络和强大数据采集技术而闻名。它能够轻松采集各种网页数据，包括产品信息、价格、评论和社交媒体数据等。爬虫，又称为网络爬虫或网页爬虫，是一种自动浏览互联网的程序，它按照一定的算法顺序访问网页，并从中提取有用信息。八爪鱼是一款面向非技术用户的桌面端爬虫软件，以其可视化操作和强大的模板库而受到青睐。

2025-07-01 18:27:56 548

原创 Nvidia CUDA还是向Python妥协了

另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必须要兼容这些Python库，因此推出了numpy的cuda接口cuPyNumeric，以及能涵盖scipy功能的计算库nvmath，这些都是CUDA为了融入Python而做的工作。再加上现在即时编译技术JIT的成熟，比如numba库，Python代码能实时的编译为CUDA的PTX指令，消除了Python和GPU编程之间的障碍。你说，CUDA能不急吗？

2025-07-01 18:23:51 112

原创使用爬虫工具自动化采集电商商品数据

爬虫是网络数据采集的简称，顾名思义就是利用http请求技术向网站发送数据请求，然后进行html解析并提取到需要的数据，可以使用Python等工具实现，这个过程看似简单，但暗藏很多机关，也导致很多人只是入了爬虫的门，但无法真正开发爬虫项目。这主要是因为网络上到处是反爬虫机制，爬虫会面对IP限制、验证码、数据加密、动态页面处理等各种问题，需要IP代理、OCR、数据解密、selenium动态加载等技术来解决。所以写爬虫要一路打怪升级，才能稳定地获取到高质量数据。

2025-06-30 08:55:07 1190

原创这个科研绘图Python库真的强大，必须推荐～

matplotlib是Python中最底层的绘图库，它支持二维、三维、交互式等各种图表，而且通过元素化的模式能设计图表的任何细节，定制化程度非常高，很多可视化库都是基于matplotlib做二次开发的，或者是matplotlib的拓展，比如seaborn、pandas、mplfinance、DNA Features Viewer等，它们能应用于数据科学、金融量化、生物医学等各领域科研绘图。另外，matplotlib有一个示例集，里面有各式各样的专业图表，有的只需要换换数据就能为自己所用。

2025-06-30 08:17:16 229

原创 Python安装库太慢？配置好这个速度飞起

然而pip是从pypi中下载库文件的，pypi是python官方第三方库的仓库，它用的是国外的服务器，下载速度自然很慢。国内的这些镜像网站拥有非常多的开源工具，不光是pypi，你还可以在里面下载mysql、anaconda、ubuntu、nodejs等主流软件，速度杠杠的。经常听到初学python的小伙伴在抱怨，python安装第三方库太慢，很容易失败报错，如果安装pandas、tensorflow这种体积大的库，简直龟速。其实这样不太方便，若想省力气，那就要永久配置镜像源，配置好后只要输入。

2025-06-29 09:19:02 334

原创轻松识别图像，这款Python OCR库支持超过80种语言

检测部分使用了CRAFT算法，识别模型为CRNN，它由3个主要组件组成：特征提取，序列标记（LSTM）和解码（CTC）。这段代码有一段参数['ch_sim','en']，这是要识别的语言列表，因为路牌里有中文和英文，所以列表里添加了ch_sim（简体中文）、en（英文）。EasyOCR支持超过80种语言的识别，包括英语、中文（简繁）、阿拉伯文、日文等，并且该库在不断更新中，未来会支持更多的语言。细心观察便可发现，身边到处都是OCR的身影，文档扫描、车牌识别、证件识别、银行卡识别、票据识别等等。

2025-06-29 09:18:20 390

原创 sql是什么，通俗的说，太专业听不懂？

首先你需要了解SQL语法的基础，包括SELECT，FROM，WHERE，GROUP BY，HAVING，ORDER BY、LIMIT等。比如同样是筛选数据，在excel中需要在列名上添加筛选，然后选择想要的字段，这是图形化的命令；SQL是一种用于处理数据的语言，就像我们说的汉语、英语一样，有特定的语法结构，让我们灵活地处理数据。SQL是所有数据库查询的语言，sql由于本身结构化的特点，非常容易入手。SQL做的事其实和Excel一样的，不过它处理的表我们看不到，是存放在数据库里的二维表。

2025-06-28 21:47:31 895

原创 python如何理解map，reduce，filter？

是的python函数，初学者会较难理解，这里详细解释下。

2025-06-28 21:46:56 400

原创 pandas_profiling ：教你一行代码生成数据分析报告

pandas_profiling可以用一行代码生成详细的数据分析报告，与pandas深度结合，非常适合前期的数据探索阶段，以及结果数据报告批量化生产。熟悉pandas的童鞋估计都知道pandas的describe()和info()函数，用来查看数据的整体情况，比如平均值、标准差之类，就是所谓的探索性数据分析-EDA。如果你想更方便快捷地了解数据的全貌，泣血推荐一个python库：pandas_profiling，这个库只需要一行代码就可以生成数据EDA报告。数据类型，唯一值，缺失值，内存大小。

2025-06-27 08:48:33 153

原创利用Python将PDF文档转为MP3音频

Python中操作PDF的工具库主要是PyPDF2，但发现编码实在有点繁琐，我就换了另一个库pdfplumber，与PyPDF2语法类似，用起来还算流畅。最近在群里看到有人发张磊的新作《价值》电子书，这本今年刚出的畅销书盗版猖獗，我之前在微信读书里看过，对作者长期主义的观点深信不疑。微信读书有一个功能，可以将书里的文字转换为音频，而且声音优化的不错，比传统的机械朗读听起来舒服很多。简单来说，pyttsx3可以文字转语音，而且是离线工作的，这一点就很实用。我准备动手试试，将PDF书籍转成音频。

2025-06-27 08:48:00 443

原创轻松识别图像，这款Python OCR库支持超过80种语言

检测部分使用了CRAFT算法，识别模型为CRNN，它由3个主要组件组成：特征提取，序列标记（LSTM）和解码（CTC）。这段代码有一段参数['ch_sim','en']，这是要识别的语言列表，因为路牌里有中文和英文，所以列表里添加了ch_sim（简体中文）、en（英文）。EasyOCR支持超过80种语言的识别，包括英语、中文（简繁）、阿拉伯文、日文等，并且该库在不断更新中，未来会支持更多的语言。细心观察便可发现，身边到处都是OCR的身影，文档扫描、车牌识别、证件识别、银行卡识别、票据识别等等。

2025-06-25 18:19:30 509

原创一文搞懂Python文件读写

readlines方法和readline方法长得像，但功能不一样，前面说过readline方法只读取一行，readlines方法则是读取所有行，返回的是所有行组成的列表。很多童鞋困扰于读写文件的各种模式（如阅读、写入、追加等），以及搞不清open、read、readline、readlines、write等方法的使用。也就是说，你读取的txt文本，其中换行符会以'\n'形式出现，写入txt文本时，文本中的'\n'会变成换行指令。相反，在默认模式下写入文件时，文本中的'\n'会转换为换行符。

2025-06-25 18:18:49 860

原创这个可视化软件图表真的好看，强烈推荐~

1、数据分析和可视化技术强大。这是BI软件的立身之本，tableau的Hyper数据引擎技术、VizQL可视化技术，非常好的将速度、性能、美观综合起来，满足BI软件的核心需求。熟悉BI可视化的同学都知道，现在企业届常用的BI工具主要是Power BI、FineBI、Tableau等，其中以Tableau可视化功能最为突出，做出来的图表非常好看。制作好报表再发布到tableau server上，并对报表进行权限分级管理，公司的各个业务部门可以看到自己的报表，也可以在server上进行二次开发和修改。

2025-06-24 08:08:11 364

原创新式爬虫工具，网页解锁能力非常强大！

在当今数据驱动型时代，数据采集和分析能力算是个人和企业的核心竞争力。然而，手动采集数据耗时费力且效率低下，而且容易被网站封禁。我之前使用过一个爬虫工具，亮数据（Bright Data），是一款低代码爬虫平台，既有现成的爬虫解锁框架，还提供IP代理服务。亮数据基于全球代理IP网络和强大数据采集技术的解决方案，可帮助轻松采集各种网页数据，如产品信息、价格信息、评论信息、社交媒体数据等。

2025-06-24 08:07:26 946

原创干财务的学Python到底有没有用？

现在Python使用的场景非常多，特别是数据采集、机器学习、数据科学领域，Python几乎是统治级别的存在。那么其他领域呢？比如财务会计，也会经常做数据分析、整理，能用到Python嘛。财务人员使用Python的场景并不多，据我了解一般的财务工作用到的软件多是Quickbook、ERP、PowerBI、ACL之类，还有Excel也是主力工具，基本可以解决财务大部分工作。但有以下三个场景可以考虑用Python。1、如果你的工作涉及。

2025-06-24 08:06:23 432

原创使用Python爬虫的重要原因和6大常用库推荐

而且亮数据有个很强大的功能：Scraper APIs，你可以理解成一种爬虫接口，它帮你绕开了IP限制、验证码、加密等问题，无需编写任何的反爬机制处理、动态网页处理代码，后续也无需任何维护，就可以“一键”获取Tiktok、Amazon、Linkedin、Github、Instagram等全球各大主流网站数据。爬虫其实就是请求http、解析网页、存储数据的过程，并非高深的技术，但凡是编程语言都能做，连Excel VBA都可以实现爬虫，但Python爬虫的使用频率最高、场景最广。

2025-06-23 08:52:34 1019

原创如何采集海外电商数据，这个工具很实用～

最近用到一个非常简单的高级爬虫工具，亮数据的Scraper APIs，你可以理解成一种爬虫接口，它帮你绕开了IP限制、验证码、加密等问题，无需编写任何的反爬机制处理、动态网页处理代码，后续也无需任何维护，就可以“一键”获取Tiktok、Amazon、Linkedin、Github、Instagram等全球各大主流网站数据。1、在云上向Tiktok发出http数据请求 2、模拟登陆、配置IP代理、动态访问、识别验证码、破解加密数据等 3、解析获取的HTML，提取重要的字段，输出为json格式。

2025-06-23 08:46:55 2214

原创 Anaconda和Python是什么关系？

简单来说，Anaconda是一个集成了IDE、Notepad、Python、IPython、Python包、Python包管理工具的数据科学开发工具，并且Anaconda还支持R等非Python语言。Anaconda和Python相当于是汽车和发动机的关系，你安装Anaconda后，就像买了一台车，无需你自己安装发动机和其他零配件，而Python作为发动机提供Anaconda工作所需的内核。你可以把Anaconda看做成Python在数据科学领域的瑞士军刀，什么都给你安排好了，就等你下载安装。

2025-06-22 21:36:49 173

原创为什么Python不适合写游戏？

知乎上有个热门问题：Python 能写游戏吗？有没有什么开源项目？

2025-06-22 21:36:10 866

原创万能Python脚本生成器！

如今AI推理模型的能力越来越强，随着o1、o3、GLM-Zero-Preview等推理模型的接连发布，我相信会涌现出非常多的AI应用，在编程、数学、逻辑推断等各个方向都会有广阔的应用方向。作为个人，其实也可以开发一些简单的AI应用，配合GLM-Zero-Preview模型的能力，可玩的场景也很多，想象力是无穷的，AI赋能的场景也是无限的。

2025-06-21 10:46:48 678

原创 RAPIDS cuDF，让数据处理飞起来~

接触过数据科学和机器学习的小伙伴可能都会知道英伟达的RAPIDS，它是大名鼎鼎的GPU加速系统，通过GPU的并行能力来为数据处理、机器学习提升效率。RAPIDS拥有cuML、cuGraph、cuDF等众多核心组件库，cuDF专门负责数据处理，它是一个DataFrame库，类似Pandas，但cuDF运行在GPU上，所以它能提供高效的数据帧操作，支持数据加载、过滤、排序、聚合、连接等操作。

2025-06-21 10:46:00 934

原创亮数据采集跨境电商数据实战，附代码～

爬虫是网络数据采集的简称，顾名思义就是利用http请求技术向网站发送数据请求，然后进行html解析并提取到需要的数据，可以使用Python等工具实现，这个过程看似简单，但暗藏很多机关，也导致很多人只是入了爬虫的门，但无法真正开发爬虫项目。这主要是因为网络上到处是反爬虫机制，爬虫会面对IP限制、验证码、数据加密、动态页面处理等各种问题，需要IP代理、OCR、数据解密、selenium动态加载等技术来解决。所以写爬虫要一路打怪升级，才能稳定地获取到高质量数据。

2025-06-19 23:10:22 1337

原创我常用的几个Python金融数据接口库，非常好用~

在金融分析和量化投资领域，Python已成为最受欢迎的编程语言之一。这主要归功于其丰富的库和框架，它们提供了处理和分析金融数据所需的工具，而且还有大量免费实时的金融股票数据供你分析研究。以下是六个最常用的Python金融数据接口库，有国内也有国外的，它们各自具有独特的功能和优势。

2025-06-19 23:07:15 837

原创 jupyter中那些神奇的第三方拓展魔术命令

无论是还是，都可以使用ipython中的众多自带来实现丰富的辅助功能，诸如%time之类的。这些都已经是老生常谈的知识没什么好说的，但我们今天要给大家介绍的，则是一些实用的基于的魔术命令，从而极大程度上扩展jupyter的功能。图1。

2025-06-18 23:15:44 401

原创高级，这个Python库助力pandas智能可视化分析

LUX是一个不错的数据可视化分析工具，能智能地辅助Pandas做数据探索，省去了很多不必要的操作。

2025-06-18 23:15:09 280

原创收藏！20条非常实用的Python代码实例

在使用列表的时候，有时会需要取最后一个元素，有下面几种方式可以实现。#索引方法#pop方法。

2025-06-17 18:32:48 382

原创聊聊Pandas的前世今生

本文将从四个方面去聊一聊Pandas，期望能带给大家一点启发。

2025-06-17 18:32:11 705

原创学会这7个爬虫软件，三分钟搞定数据采集

它提供了自动网站解锁功能，能够应对动态加载、验证码、IP限制等各种反爬虫机制，而且支持如Puppeteer、Playwright和Selenium等多种爬虫工具，在亮数据内置的无界面浏览器上进行数据的采集，成功率非常高。不管是文本、图片、视频亦或表格，八爪鱼都能抓，而且它还提供了非常丰富的采集模板，比如电商、新闻、短视频等主流平台全包含，它已经帮你配置好了流程，一键可以实现爬虫。它的优势是基于Python生态，灵活性高，支持分布式爬虫和异步请求，而且有多种扩展，能满足复杂采集需求，适合做企业级爬虫部署。

2025-06-16 17:48:32 2327

原创 Puppeteer，非常好用的一款爬虫和自动化利器～

亮数据则是专门用于复杂网页数据采集的工具，可以搞定反爬、动态页面，比如它的Web Scraper IDE、亮数据浏览器、SERP API等，能够自动化地从网站上抓取所需数据，无需分析目标平台的接口，直接使用亮数据提供的方案即可安全稳定地获取数据。最近写爬虫采集电商数据，遇到很多动态加载的数据，如果用requests来抓包非常难，我尝试用了一个大家较为陌生的的工具——Puppeteer，它支持控制浏览器，能很好的采集动态网页，后来发现它不仅是一个爬虫工具，更是一个自动化利器。

2025-06-16 17:45:51 1001

原创 numpy、scipy、pandas这些库的区别是什么？

综上所述，pandas和scipy是建立在numpy数组基础之上的数据工具，三者的协同工作可以高效解决很多问题，在金融、财务、天文、生物、气象和气候、材料等多个领域得到了广泛应用。scipy 是一个用于数学、科学、工程领域的常用软件包，可以处理最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理、图像处理、常微分方程求解器等。其包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。

2025-06-15 10:32:00 269

原创 D-Tale，实现Pandas GUI高效数据探索分析

它可以在PyCharm、Jupyter、命令行中打开，其功能包括筛选、排序、高亮、拼接、数据转换、描述统计、可视化等等。尤其是可视化能力，D-Tale可以像Power BI那样实现拖拉拽的图表制作，而且提供了很多图表类型，包括折线图、柱状图、直方图、饼图、热力图、三维图、词云图、地图等等。比如说，你想简单看下数据集的结构、描述统计结果、可视化图表等等，如果能绕开代码，直接通过GUI界面来操作，会更加方便。如果你经常使用Pandas进行数据分析，那么便可以试试D-Tale，它通过pip进行安装，非常简单。

2025-06-15 10:31:23 244

原创 Python打包成 exe，太大了该怎么解决？

我猜你一定是用PyInstaller打包exe的，PyInstaller特点是将乱七八糟的东西打包一起，比如各种依赖库，即使你的程序只使用了pandas很小一个功能，比如read_data，它也会将整个pandas打包，这就导致出来的exe文件非常的大。.spec文件是PyInstaller在打包exe程序时生成的配置文件，包含了所有配置信息，像脚本路径、依赖库、资源文件、打包选项等，可以通过修改.spec文件，来精简不必要的依赖。这个程序使用Python tkinter实现的，这是Python的标准库。

2025-06-14 15:45:41 445

原创使用Dify + DeepSeek在本地电脑搭建工作流，太香了

工作流是由于DeepSeek等大模型的兴起而开始风靡的，它可以基于AI和流程设计来实现自动化的AI应用，比如说自动化生成业务报告、AI自媒体写作、简历筛选机器人等。这些复杂繁琐的工作可以通过DeepSeek这类的大模型生成解决方案，并最终输出结果，形成一套工作流。目前市面上有不少搭建工作流的工具，比如字节Coze、腾讯元器、OpenAI GPTs等，支持通过拖拉拽设计工作流实现一个AI工具的搭建，但这些平台都是大厂的商业应用，你只能在它的平台里搭建和使用，无法离线部署，缺乏应用的灵活性和数据安全性。

2025-06-14 15:44:47 358

原创在BI软件上使用SQL查询其实很简单

如何在BI软件上使用SQL查询？我理解在BI上使用SQL是对原始数据进行查询、筛选、清洗，这一点主流BI工具像power BI，tableau、superset都可以支持。你只需要写好SQL代码，对数据里的相关表进行查询，就可以对查询后的新表进行分析。举个例子，在tableau里使用SQL，这里我们以连接MySQL数据库为例。首先，连接MySQL数据库，只需要填入server地址、用户名、密码即可。然后，选择需要进行BI分析的表，拖拽到表区域。最后，进行自定义SQL查询，写入SQL代码，就会得到新的表。其他

2025-06-13 14:32:17 264

原创我常用的几款低代码爬虫工具，值得入手

它提供了自动网站解锁功能，能够应对动态加载、验证码、IP限制等各种反爬虫机制，而且支持如Puppeteer、Playwright和Selenium等多种爬虫工具，在亮数据内置的无界面浏览器上进行数据的采集，成功率非常高。与屏幕抓取不同，屏幕抓取只复制屏幕上显示的像素，网络爬虫提取的是底层的HTML代码，以及存储在数据库中的数据。不管是文本、图片、视频亦或表格，八爪鱼都能抓，而且它还提供了非常丰富的采集模板，比如电商、新闻、短视频等主流平台全包含，它已经帮你配置好了流程，一键可以实现爬虫。

2025-06-13 14:31:20 962

原创为什么Python中会有集合set类型？

因为set是数学意义上的集合，拥有唯一和无序的特性，即用来存放没有顺序且无重复的数据，并且元素是不可变的。确实set和list、tuple、dict一样，都是python的主要数据类型，它们的作用是不同的。: x-y，返回一个新的集合,包括在集合 x 中但不在集合 y 中的元素。: x&y，返回一个新的集合，包括同时在集合 x 和y中的共同元素。: x^y，返回一个新的集合，包括集合 x 和 y 的非共同元素。: x|y，返回一个新的集合，包括集合 x 和 y 中所有元素。

2025-06-12 15:46:20 300

原创程序员大佬的8个好习惯

现在开源项目渐渐成为主流，也赢得更多的支持和认可，比如Python、MySQL 、Linux、PyTorch等等，GitHub上有非常多优秀的仓库值得大家去学习、共创。所谓闭环思维，简单点讲，就是无论做什么事，都能有始有终，能形成一个完整的闭环。保持对程序代码的手感，非常重要‼️practice make perfect ，练习不光是练手，还要练习大脑的思考，手脑并进才是进步。提问者需要有总结归纳的能力，我觉得好的问题有3个标准，开放、有争议、可迁移，现在能提好问题的人并不多。6、善于提问，善于搜索。

2025-06-12 15:45:24 413

100个Github Python项目

16个matplotlib绘图技巧

60个Numpy函数和方法解析

空空如也