自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(707)
  • 收藏
  • 关注

原创 数据采集必备的6个低代码爬虫工具

无论是需要简单的数据抓取,还是复杂的数据挖掘和分析,市场上的爬虫工具都能提供相应的解决方案。同时,使用爬虫软件时,也应遵守相应的法律法规,尊重数据的版权和隐私。亮数据是一款强大的数据采集工具,以其全球代理IP网络和强大数据采集技术而闻名。它能够轻松采集各种网页数据,包括产品信息、价格、评论和社交媒体数据等。爬虫,又称为网络爬虫或网页爬虫,是一种自动浏览互联网的程序,它按照一定的算法顺序访问网页,并从中提取有用信息。八爪鱼是一款面向非技术用户的桌面端爬虫软件,以其可视化操作和强大的模板库而受到青睐。

2025-07-01 18:27:56 548

原创 Nvidia CUDA还是向Python妥协了

另一方面,Python生态的计算库实在太强大,比如numpy,几乎垄断了数组计算,还有像scipy、keras等,已经成为机器学习的主流工具,CUDA必须要兼容这些Python库,因此推出了numpy的cuda接口cuPyNumeric​,以及能涵盖scipy功能的计算库nvmath​,这些都是CUDA为了融入Python而做的工作。再加上现在即时编译技术JIT的成熟,比如numba库,Python代码能实时的编译为CUDA的PTX指令,消除了Python和GPU编程之间的障碍。你说,CUDA能不急吗?

2025-07-01 18:23:51 112

原创 使用爬虫工具自动化采集电商商品数据

爬虫是网络数据采集的简称,顾名思义就是利用http请求技术向网站发送数据请求,然后进行html解析并提取到需要的数据,可以使用Python等工具实现,这个过程看似简单,但暗藏很多机关,也导致很多人只是入了爬虫的门,但无法真正开发爬虫项目。这主要是因为网络上到处是反爬虫机制,爬虫会面对IP限制、验证码、数据加密、动态页面处理等各种问题,需要IP代理、OCR、数据解密、selenium动态加载等技术来解决。所以写爬虫要一路打怪升级,才能稳定地获取到高质量数据。

2025-06-30 08:55:07 1190

原创 这个科研绘图Python库真的强大,必须推荐~

matplotlib是Python中最底层的绘图库,它支持二维、三维、交互式等各种图表,而且通过元素化的模式能设计图表的任何细节,定制化程度非常高,很多可视化库都是基于matplotlib做二次开发的,或者是matplotlib的拓展,比如seaborn、pandas、mplfinance、DNA Features Viewer等,它们能应用于数据科学、金融量化、生物医学等各领域科研绘图。另外,matplotlib有一个示例集,里面有各式各样的专业图表,有的只需要换换数据就能为自己所用。

2025-06-30 08:17:16 229

原创 Python安装库太慢?配置好这个速度飞起

然而pip是从pypi中下载库文件的,pypi是python官方第三方库的仓库,它用的是国外的服务器,下载速度自然很慢。国内的这些镜像网站拥有非常多的开源工具,不光是pypi,你还可以在里面下载mysql、anaconda、ubuntu、nodejs等主流软件,速度杠杠的。经常听到初学python的小伙伴在抱怨,python安装第三方库太慢,很容易失败报错,如果安装pandas、tensorflow这种体积大的库,简直龟速。其实这样不太方便,若想省力气,那就要永久配置镜像源,配置好后只要输入。

2025-06-29 09:19:02 334

原创 轻松识别图像,这款Python OCR库支持超过80种语言

检测部分使用了CRAFT算法,识别模型为CRNN,它由3个主要组件组成:特征提取,序列标记(LSTM)和解码(CTC)。这段代码有一段参数['ch_sim','en'],这是要识别的语言列表,因为路牌里有中文和英文,所以列表里添加了ch_sim(简体中文)、en(英文)。EasyOCR支持超过80种语言的识别,包括英语、中文(简繁)、阿拉伯文、日文等,并且该库在不断更新中,未来会支持更多的语言。细心观察便可发现,身边到处都是OCR的身影,文档扫描、车牌识别、证件识别、银行卡识别、票据识别等等。

2025-06-29 09:18:20 390

原创 sql是什么,通俗的说,太专业听不懂?

首先你需要了解SQL语法的基础,包括SELECT,FROM,WHERE,GROUP BY,HAVING,ORDER BY、LIMIT等。比如同样是筛选数据,在excel中需要在列名上添加筛选,然后选择想要的字段,这是图形化的命令;SQL是一种用于处理数据的语言,就像我们说的汉语、英语一样,有特定的语法结构,让我们灵活地处理数据。SQL是所有数据库查询的语言,sql由于本身结构化的特点,非常容易入手。SQL做的事其实和Excel一样的,不过它处理的表我们看不到,是存放在数据库里的二维表。

2025-06-28 21:47:31 895

原创 python如何理解map,reduce,filter?

是的python函数,初学者会较难理解,这里详细解释下。

2025-06-28 21:46:56 400

原创 pandas_profiling :教你一行代码生成数据分析报告

pandas_profiling可以用一行代码生成详细的数据分析报告,与pandas深度结合,非常适合前期的数据探索阶段,以及结果数据报告批量化生产。熟悉pandas的童鞋估计都知道pandas的describe()和info()函数,用来查看数据的整体情况,比如平均值、标准差之类,就是所谓的探索性数据分析-EDA。如果你想更方便快捷地了解数据的全貌,泣血推荐一个python库:pandas_profiling,这个库只需要一行代码就可以生成数据EDA报告。数据类型,唯一值,缺失值,内存大小。

2025-06-27 08:48:33 153

原创 利用Python将PDF文档转为MP3音频

Python中操作PDF的工具库主要是PyPDF2,但发现编码实在有点繁琐,我就换了另一个库pdfplumber,与PyPDF2语法类似,用起来还算流畅。最近在群里看到有人发张磊的新作《价值》电子书,这本今年刚出的畅销书盗版猖獗,我之前在微信读书里看过,对作者长期主义的观点深信不疑。微信读书有一个功能,可以将书里的文字转换为音频,而且声音优化的不错,比传统的机械朗读听起来舒服很多。简单来说,pyttsx3可以文字转语音,而且是离线工作的,这一点就很实用。我准备动手试试,将PDF书籍转成音频。

2025-06-27 08:48:00 443

原创 轻松识别图像,这款Python OCR库支持超过80种语言

检测部分使用了CRAFT算法,识别模型为CRNN,它由3个主要组件组成:特征提取,序列标记(LSTM)和解码(CTC)。这段代码有一段参数['ch_sim','en'],这是要识别的语言列表,因为路牌里有中文和英文,所以列表里添加了ch_sim(简体中文)、en(英文)。EasyOCR支持超过80种语言的识别,包括英语、中文(简繁)、阿拉伯文、日文等,并且该库在不断更新中,未来会支持更多的语言。细心观察便可发现,身边到处都是OCR的身影,文档扫描、车牌识别、证件识别、银行卡识别、票据识别等等。

2025-06-25 18:19:30 509

原创 一文搞懂Python文件读写

readlines方法和readline方法长得像,但功能不一样,前面说过readline方法只读取一行,readlines方法则是读取所有行,返回的是所有行组成的列表。很多童鞋困扰于读写文件的各种模式(如阅读、写入、追加等),以及搞不清open、read、readline、readlines、write等方法的使用。也就是说,你读取的txt文本,其中换行符会以'\n'形式出现,写入txt文本时,文本中的'\n'会变成换行指令。相反,在默认模式下写入文件时,文本中的'\n'会转换为换行符。

2025-06-25 18:18:49 860

原创 这个可视化软件图表真的好看,强烈推荐~

1、数据分析和可视化技术强大。这是BI软件的立身之本,tableau的Hyper数据引擎技术、VizQL可视化技术,非常好的将速度、性能、美观综合起来,满足BI软件的核心需求。熟悉BI可视化的同学都知道,现在企业届常用的BI工具主要是Power BI、FineBI、Tableau等,其中以Tableau可视化功能最为突出,做出来的图表非常好看。制作好报表再发布到tableau server上,并对报表进行权限分级管理,公司的各个业务部门可以看到自己的报表,也可以在server上进行二次开发和修改。

2025-06-24 08:08:11 364

原创 新式爬虫工具,网页解锁能力非常强大!

在当今数据驱动型时代,数据采集和分析能力算是个人和企业的核心竞争力。然而,手动采集数据耗时费力且效率低下,而且容易被网站封禁。我之前使用过一个爬虫工具,亮数据(Bright Data) ,是一款低代码爬虫平台,既有现成的爬虫解锁框架,还提供IP代理服务。亮数据基于全球代理IP网络和强大数据采集技术的解决方案,可帮助轻松采集各种网页数据,如产品信息、价格信息、评论信息、社交媒体数据等。

2025-06-24 08:07:26 946

原创 干财务的学Python到底有没有用?

现在Python使用的场景非常多,特别是数据采集、机器学习、数据科学领域,Python几乎是统治级别的存在。那么其他领域呢?比如财务会计,也会经常做数据分析、整理,能用到Python嘛。财务人员使用Python的场景并不多,据我了解一般的财务工作用到的软件多是Quickbook、ERP、PowerBI、ACL之类,还有Excel也是主力工具,基本可以解决财务大部分工作。但有以下三个场景可以考虑用Python。1、如果你的工作涉及。

2025-06-24 08:06:23 432

原创 使用Python爬虫的重要原因和6大常用库推荐

而且亮数据有个很强大的功能:Scraper APIs,你可以理解成一种爬虫接口,它帮你绕开了IP限制、验证码、加密等问题,无需编写任何的反爬机制处理、动态网页处理代码,后续也无需任何维护,就可以“一键”获取Tiktok、Amazon、Linkedin、Github、Instagram等全球各大主流网站数据。爬虫其实就是请求http、解析网页、存储数据的过程,并非高深的技术,但凡是编程语言都能做,连Excel VBA都可以实现爬虫,但Python爬虫的使用频率最高、场景最广。

2025-06-23 08:52:34 1019

原创 如何采集海外电商数据,这个工具很实用~

最近用到一个非常简单的高级爬虫工具,亮数据的Scraper APIs,你可以理解成一种爬虫接口,它帮你绕开了IP限制、验证码、加密等问题,无需编写任何的反爬机制处理、动态网页处理代码,后续也无需任何维护,就可以“一键”获取Tiktok、Amazon、Linkedin、Github、Instagram等全球各大主流网站数据。1、在云上向Tiktok发出http数据请求 2、模拟登陆、配置IP代理、动态访问、识别验证码、破解加密数据等 3、解析获取的HTML,提取重要的字段,输出为json格式。

2025-06-23 08:46:55 2214

原创 Anaconda和Python是什么关系?

简单来说,Anaconda是一个集成了IDE、Notepad、Python、IPython、Python包、Python包管理工具的数据科学开发工具,并且Anaconda还支持R等非Python语言。Anaconda和Python相当于是汽车和发动机的关系,你安装Anaconda后,就像买了一台车,无需你自己安装发动机和其他零配件,而Python作为发动机提供Anaconda工作所需的内核。你可以把Anaconda看做成Python在数据科学领域的瑞士军刀,什么都给你安排好了,就等你下载安装。

2025-06-22 21:36:49 173

原创 为什么Python不适合写游戏?

知乎上有个热门问题:Python 能写游戏吗?有没有什么开源项目?

2025-06-22 21:36:10 866

原创 万能Python脚本生成器!

如今AI推理模型的能力越来越强,随着o1、o3、GLM-Zero-Preview等推理模型的接连发布,我相信会涌现出非常多的AI应用,在编程、数学、逻辑推断等各个方向都会有广阔的应用方向。作为个人,其实也可以开发一些简单的AI应用,配合GLM-Zero-Preview模型的能力,可玩的场景也很多,想象力是无穷的,AI赋能的场景也是无限的。

2025-06-21 10:46:48 678

原创 RAPIDS cuDF,让数据处理飞起来~

接触过数据科学和机器学习的小伙伴可能都会知道英伟达的RAPIDS,它是大名鼎鼎的GPU加速系统,通过GPU的并行能力来为数据处理、机器学习提升效率。RAPIDS拥有cuML、cuGraph、cuDF等众多核心组件库,cuDF专门负责数据处理,它是一个DataFrame库,类似Pandas,但cuDF运行在GPU上,所以它能提供高效的数据帧操作,支持数据加载、过滤、排序、聚合、连接等操作。

2025-06-21 10:46:00 934

原创 亮数据采集跨境电商数据实战,附代码~

爬虫是网络数据采集的简称,顾名思义就是利用http请求技术向网站发送数据请求,然后进行html解析并提取到需要的数据,可以使用Python等工具实现,这个过程看似简单,但暗藏很多机关,也导致很多人只是入了爬虫的门,但无法真正开发爬虫项目。这主要是因为网络上到处是反爬虫机制,爬虫会面对IP限制、验证码、数据加密、动态页面处理等各种问题,需要IP代理、OCR、数据解密、selenium动态加载等技术来解决。所以写爬虫要一路打怪升级,才能稳定地获取到高质量数据。

2025-06-19 23:10:22 1337

原创 我常用的几个Python金融数据接口库,非常好用~

在金融分析和量化投资领域,Python已成为最受欢迎的编程语言之一。这主要归功于其丰富的库和框架,它们提供了处理和分析金融数据所需的工具,而且还有大量免费实时的金融股票数据供你分析研究。以下是六个最常用的Python金融数据接口库,有国内也有国外的,它们各自具有独特的功能和优势。

2025-06-19 23:07:15 837

原创 jupyter中那些神奇的第三方拓展魔术命令

无论是还是,都可以使用ipython中的众多自带来实现丰富的辅助功能,诸如%time之类的。这些都已经是老生常谈的知识没什么好说的,但我们今天要给大家介绍的,则是一些实用的基于的魔术命令,从而极大程度上扩展jupyter的功能。图1。

2025-06-18 23:15:44 401

原创 高级,这个Python库助力pandas智能可视化分析

LUX是一个不错的数据可视化分析工具,能智能地辅助Pandas做数据探索,省去了很多不必要的操作。

2025-06-18 23:15:09 280

原创 收藏!20条非常实用的Python代码实例

在使用列表的时候,有时会需要取最后一个元素,有下面几种方式可以实现。#索引方法#pop方法。

2025-06-17 18:32:48 382

原创 聊聊Pandas的前世今生

本文将从四个方面去聊一聊Pandas,期望能带给大家一点启发。

2025-06-17 18:32:11 705

原创 学会这7个爬虫软件,三分钟搞定数据采集

它提供了自动网站解锁功能,能够应对动态加载、验证码、IP限制等各种反爬虫机制,而且支持如Puppeteer、Playwright和Selenium等多种爬虫工具,在亮数据内置的无界面浏览器上进行数据的采集,成功率非常高。不管是文本、图片、视频亦或表格,八爪鱼都能抓,而且它还提供了非常丰富的采集模板,比如电商、新闻、短视频等主流平台全包含,它已经帮你配置好了流程,一键可以实现爬虫。它的优势是基于Python生态,灵活性高,支持分布式爬虫和异步请求,而且有多种扩展,能满足复杂采集需求,适合做企业级爬虫部署。

2025-06-16 17:48:32 2327

原创 Puppeteer,非常好用的一款爬虫和自动化利器~

​亮数据则是专门用于复杂网页数据采集的工具,可以搞定反爬、动态页面,比如它的Web Scraper IDE、亮数据浏览器、SERP API等,能够自动化地从网站上抓取所需数据,无需分析目标平台的接口,直接使用亮数据提供的方案即可安全稳定地获取数据。最近写爬虫采集电商数据,遇到很多动态加载的数据,如果用requests来抓包非常难,我尝试用了一个大家较为陌生的的工具——Puppeteer,它支持控制浏览器,能很好的采集动态网页,后来发现它不仅是一个爬虫工具,更是一个自动化利器。

2025-06-16 17:45:51 1001

原创 numpy、scipy、pandas这些库的区别是什么?

综上所述,pandas和scipy是建立在numpy数组基础之上的数据工具,三者的协同工作可以高效解决很多问题,在金融、财务、天文、生物、气象和气候、材料等多个领域得到了广泛应用。scipy 是一个用于数学、科学、工程领域的常用软件包,可以处理最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理、图像处理、常微分方程求解器等。其包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。

2025-06-15 10:32:00 269

原创 D-Tale,实现Pandas GUI高效数据探索分析

它可以在PyCharm、Jupyter、命令行中打开,其功能包括筛选、排序、高亮、拼接、数据转换、描述统计、可视化等等。尤其是可视化能力,D-Tale可以像Power BI那样实现拖拉拽的图表制作,而且提供了很多图表类型,包括折线图、柱状图、直方图、饼图、热力图、三维图、词云图、地图等等。比如说,你想简单看下数据集的结构、描述统计结果、可视化图表等等,如果能绕开代码,直接通过GUI界面来操作,会更加方便。如果你经常使用Pandas进行数据分析,那么便可以试试D-Tale,它通过pip进行安装,非常简单。

2025-06-15 10:31:23 244

原创 Python打包成 exe,太大了该怎么解决?

我猜你一定是用PyInstaller打包exe的,PyInstaller特点是将乱七八糟的东西打包一起,比如各种依赖库,即使你的程序只使用了pandas很小一个功能,比如read_data,它也会将整个pandas打包,这就导致出来的exe文件非常的大。.spec文件是PyInstaller在打包exe程序时生成的配置文件,包含了所有配置信息,像脚本路径、依赖库、资源文件、打包选项等,可以通过修改.spec文件,来精简不必要的依赖。这个程序使用Python tkinter实现的,这是Python的标准库。

2025-06-14 15:45:41 445

原创 使用Dify + DeepSeek在本地电脑搭建工作流,太香了

工作流是由于DeepSeek等大模型的兴起而开始风靡的,它可以基于AI和流程设计来实现自动化的AI应用,比如说自动化生成业务报告、AI自媒体写作、简历筛选机器人等。这些复杂繁琐的工作可以通过DeepSeek这类的大模型生成解决方案,并最终输出结果,形成一套工作流。目前市面上有不少搭建工作流的工具,比如字节Coze、腾讯元器、OpenAI GPTs等,支持通过拖拉拽设计工作流实现一个AI工具的搭建,但这些平台都是大厂的商业应用,你只能在它的平台里搭建和使用,无法离线部署,缺乏应用的灵活性和数据安全性。

2025-06-14 15:44:47 358

原创 在BI软件上使用SQL查询其实很简单

如何在BI软件上使用SQL查询?我理解在BI上使用SQL是对原始数据进行查询、筛选、清洗,这一点主流BI工具像power BI,tableau、superset都可以支持。你只需要写好SQL代码,对数据里的相关表进行查询,就可以对查询后的新表进行分析。举个例子,在tableau里使用SQL,这里我们以连接MySQL数据库为例。首先,连接MySQL数据库,只需要填入server地址、用户名、密码即可。然后,选择需要进行BI分析的表,拖拽到表区域。最后,进行自定义SQL查询,写入SQL代码,就会得到新的表。其他

2025-06-13 14:32:17 264

原创 我常用的几款低代码爬虫工具,值得入手

它提供了自动网站解锁功能,能够应对动态加载、验证码、IP限制等各种反爬虫机制,而且支持如Puppeteer、Playwright和Selenium等多种爬虫工具,在亮数据内置的无界面浏览器上进行数据的采集,成功率非常高。与屏幕抓取不同,屏幕抓取只复制屏幕上显示的像素,网络爬虫提取的是底层的HTML代码,以及存储在数据库中的数据。不管是文本、图片、视频亦或表格,八爪鱼都能抓,而且它还提供了非常丰富的采集模板,比如电商、新闻、短视频等主流平台全包含,它已经帮你配置好了流程,一键可以实现爬虫。

2025-06-13 14:31:20 962

原创 为什么Python中会有集合set类型?

因为set是数学意义上的集合,拥有唯一和无序的特性,即用来存放没有顺序且无重复的数据,并且元素是不可变的。确实set和list、tuple、dict一样,都是python的主要数据类型,它们的作用是不同的。: x-y,返回一个新的集合,包括在集合 x 中但不在集合 y 中的元素。: x&y,返回一个新的集合,包括同时在集合 x 和y中的共同元素。: x^y,返回一个新的集合,包括集合 x 和 y 的非共同元素。: x|y,返回一个新的集合,包括集合 x 和 y 中所有元素。

2025-06-12 15:46:20 300

原创 程序员大佬的8个好习惯

现在开源项目渐渐成为主流,也赢得更多的支持和认可,比如Python、MySQL 、Linux、PyTorch等等,GitHub上有非常多优秀的仓库值得大家去学习、共创。所谓闭环思维,简单点讲,就是无论做什么事,都能有始有终,能形成一个完整的闭环。保持对程序代码的手感,非常重要‼️practice make perfect ,练习不光是练手,还要练习大脑的思考,手脑并进才是进步。提问者需要有总结归纳的能力,我觉得好的问题有3个标准,开放、有争议、可迁移,现在能提好问题的人并不多。6、善于提问,善于搜索。

2025-06-12 15:45:24 413

原创 Anaconda和Python是什么关系?

简单来说,Anaconda是一个集成了IDE、Notepad、Python、IPython、Python包、Python包管理工具的数据科学开发工具,并且Anaconda还支持R等非Python语言。Anaconda和Python相当于是汽车和发动机的关系,你安装Anaconda后,就像买了一台车,无需你自己安装发动机和其他零配件,而Python作为发动机提供Anaconda工作所需的内核。你可以把Anaconda看做成Python在数据科学领域的瑞士军刀,什么都给你安排好了,就等你下载安装。

2025-06-11 11:05:10 407

原创 我常用的10个办公软件,值得推荐~

我电脑上几乎必装的效率软件有几个,Everything、Draw io、Snipaste、Orange、Xmind、DBeaver、Anaconda、iSlide、八爪鱼、Thinkcell,基本都是轻量化的软件,易打开易使用。下面一一介绍下我的使用心得,希望能帮助到你。

2025-06-11 11:00:50 700

原创 RAPIDS cuDF,让数据处理飞起来~

接触过数据科学和机器学习的小伙伴可能都会知道英伟达的RAPIDS,它是大名鼎鼎的GPU加速系统,通过GPU的并行能力来为数据处理、机器学习提升效率。RAPIDS拥有cuML、cuGraph、cuDF等众多核心组件库,cuDF专门负责数据处理,它是一个DataFrame库,类似Pandas,但cuDF运行在GPU上,所以它能提供高效的数据帧操作,支持数据加载、过滤、排序、聚合、连接等操作。

2025-06-10 11:52:14 691

100个Github Python项目

整理了100个在Github上热门的Python项目,包含数据科学、web应用、游戏、可视化、机器学习、自动化等等

2024-04-22

16个matplotlib绘图技巧

包含了Python Matplotlib库可视化绘图的各种技巧,如标题、文本、注释、坐标轴、图例、颜色等等

2024-04-22

60个Numpy函数和方法解析

Python第三方库Numpy的函数和方法解析

2024-04-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除