BigDataMagician-CSDN博客

原创 Python网络爬虫（二） - 解析静态网页

本文聚焦网页解析技术及 Python 解析库 Beautiful Soup 的应用。网页解析是爬虫核心，Beautiful Soup 凭借强容错性、直观操作和多解析器支持成为主流工具，文中对比了html.parser、lxml、html5lib等解析器的特点与安装方法。其使用流程为创建对象（传入网页内容与解析器）、获取标签（通过标签名、find()/find_all()方法及 CSS 选择器）、提取数据（借助text等文本属性和get()等属性方法）。

2025-08-14 23:47:33 2226

原创 Python网络爬虫（一） - 爬取静态网页

本文介绍了静态网页爬取技术及Requests库的使用方法。主要内容包括：1）静态网页概念及其特点；2）Requests库的安装步骤；3）发送GET和POST请求的方法详解，包含参数说明和示例代码。文章重点讲解了requests.get()和requests.post()的使用，涉及URL构建、请求头设置、参数传递等核心操作，并提供了豆瓣图书网页请求的实战案例。通过本文可以快速掌握使用Python Requests库进行静态网页数据抓取的基本技能。

2025-08-11 19:07:13 1057

原创 Fiddler 安装配置教程

本文详细介绍了Fiddler网络调试工具的下载、安装及配置方法。首先通过官网下载Fiddler Classic版本，完成安装并运行。随后对Fiddler界面功能进行说明，包括菜单栏、工具栏和主要功能面板区的作用。重点讲解了如何配置HTTPS抓包功能，包括信任Fiddler根证书和允许远程连接等设置，使Fiddler能够捕获并解密HTTPS流量。该教程为网络调试人员提供了完整的Fiddler使用指南。

2025-08-07 18:42:57 861

原创 Matplotlib（六）- 坐标轴定制

本文详细介绍了Matplotlib中坐标轴(Axes)的核心概念和使用方法。主要内容包括：1)坐标轴的定义与组成要素，区分Axes与Axis的区别；2)坐标轴属性表，涵盖刻度、标签、标题等关键属性；3)axes()方法详解，展示如何创建常规、极坐标和3D坐标系；4)刻度系统的定制方法，包括多种内置定位器(MicrosecondLocator到YearLocator)的使用场景和参数说明，通过示例代码演示了多坐标系创建和刻度定制技巧。

2025-08-05 20:01:24 584

原创 Matplotlib（五）- 绘制子图

子图（Subplot）是数据可视化中高效展示多组数据的工具，通过将多个图表排布在同一画布实现对比分析。Matplotlib支持网格布局（规则排列）和自由布局（灵活排布）两种方式。网格布局通过plt.subplots()或plt.subplot()创建行列固定的子图，适合批量处理；自由布局用plt.axes()或Figure.add_axes()自定义位置和大小，灵活性更高。子图能有效提升空间利用率，适用于多数据对比、多维度分析和复杂图表整合。

2025-08-02 12:26:45 762

原创 Matplotlib（四）- 图表样式美化

Matplotlib图表样式管理摘要（150字）： Matplotlib提供灵活的图表样式配置功能，包括默认样式查看与修改方式。通过rc_params()可获取全局默认配置，涵盖字体、线条、坐标轴等参数。样式修改分为局部和全局两种：局部修改可通过绘图函数参数（如linewidth）或临时调整rcParams实现，仅影响当前图表；全局修改则需更新rcParams默认值。合理设置样式能提升图表可读性与美观度，适应不同展示场景需求。内置样式库和自定义配置功能为用户提供了高度的可视化控制能力。

2025-07-30 16:39:10 1142

原创 Matplotlib（三）- 图表辅助元素

图表辅助元素是数据可视化的关键组成部分，包括标题、坐标轴标签、图例、网格线等，它们能显著提升图表的可读性和信息完整性。本文详细介绍了Matplotlib中各类辅助元素的作用、使用场景及代码实现方法，重点讲解了坐标轴标签的设置（xlabel/ylabel）和刻度范围调整（xlim/ylim），并通过气温折线图案例展示了具体应用。掌握这些辅助元素的配置技巧，可以帮助开发者创建更专业、清晰的数据可视化图表。

2025-07-28 20:51:12 1036

原创 Matplotlib（二）- Matplotlib简单绘图

在 Matplotlib 的世界里，pyplot 模块就像是一把功能强大的绘图瑞士军刀，是我们进行数据可视化操作时最常用的接口。它提供了一套与 MATLAB 类似的绘图函数集合，让开发者能够以简单直观的方式创建各种类型的图表。pyplot 模块的设计理念是将绘图过程分解为一系列简单的步骤，通过调用不同的函数来逐步构建图表。从创建画布、绘制图形元素，到设置坐标轴、添加标题和图例，再到保存或显示图表，每一个环节都有对应的函数可供使用。

2025-07-27 13:05:48 762

原创 Anaconda3安装教程（Windows）

Anaconda是一款集成了Python/R语言及常用数据科学工具的开源发行版，内置conda包管理和虚拟环境功能。安装过程包括从清华镜像下载安装包，按步骤完成安装配置，建议勾选创建桌面快捷方式和添加环境变量。安装后提供Anaconda Navigator图形界面、命令行工具以及Jupyter Notebook等组件，其中Jupyter Notebook作为交互式计算环境，可通过浏览器访问其UI界面进行代码编写和数据分析。Anaconda能够快速搭建完整的数据科学开发环境，适合各类用户使用。

2025-07-13 14:01:19 985

原创 Matplotlib（一）- 数据可视化与Matplotlib

本文介绍了数据可视化的基本概念与常用图表类型，并总结了Python中主流可视化工具库的特点。数据可视化通过图形化呈现数据规律与趋势，核心流程包括数据读取、图表选择、绘制与保存。常见图表如折线图、柱形图、散点图等各有适用场景，能直观展示趋势、对比、分布等不同数据特征。

2025-07-13 12:43:50 825

原创基于Pandas和FineBI的昆明职位数据分析与可视化实现（五） - 基于随机森林算法预测职位分类

基于随机森林的职位分类预测分析摘要：本研究采用随机森林算法构建职位分类预测模型，处理昆明地区非结构化招聘文本数据。通过集成多维度特征（职位名称、公司信息、行业类别和技能要求），建立高准确度的分类预测系统。分析流程包括数据加载、预处理、特征工程、模型训练与评估等环节，综合运用准确率、精确率、召回率等指标评估性能。研究特别关注模型的可解释性，通过特征重要性分析和混淆矩阵可视化揭示分类规律。实验结果表明，随机森林算法在该分类任务中表现优异，既能处理复杂特征关系，又能提供业务可理解的决策依据。

2025-07-06 22:03:32 1075

原创基于Pandas和FineBI的昆明职位数据分析与可视化实现（四）- 职位数据可视化（FineBI）

右侧柱状图呈现职位二级分类数量，地图强化区域职位分布。将 “区域（经度）”“区域（纬度）” 拖入横轴、纵轴（地理维度），“职位数量（求和）” 拖入图形属性 - 颜色，“区域” 拖入图形属性 - 颜色关联。把 “职位二级分类” 拖入横轴，“职位数量” 拖入纵轴，同时将 “职位二级分类” 设为图形属性 - 颜色，“职位数量” 设为标签。柱状图以颜色区分学历层次，柱子高度对应各学历的职位数量，直观呈现昆明职位市场对不同学历的需求分布，清晰展现 “大专”“本科” 等学历的招聘主导地位。

2025-07-02 00:08:39 989

原创基于Pandas和FineBI的昆明职位数据分析与可视化实现（三）- 职位数据统计分析

本文对招聘数据进行了多维分析，包括职位分类、工作经验、学历要求、企业规模等维度。主要发现：1) 一级/二级职位分类统计揭示核心招聘领域分布；2) 市场对1-3年经验需求占比最高(34.5%)，大专学历需求最多(28.7%)；3)企业规模分析显示1000-9999人企业提供最多岗位(31.2%)；4)头部企业招聘规模差异显著，前50企业发布超2000个职位。该分析为求职者提供市场供需全景，为企业人才策略提供数据支持。

2025-06-29 21:01:09 1026

原创基于Pandas和FineBI的昆明职位数据分析与可视化实现（二）- 职位数据清洗与预处理

本文针对昆明职位数据集进行数据清洗与分析，包含17731条招聘数据。首先处理缺失值：对少量缺失的教育程度字段直接删除；融资状态按行业分组填充众数；公司规模采用全局众数填充；技能要求标注为"无明确技能要求"。其次检查重复值，发现数据无完全重复记录。最后标准化薪资数据，将不同时间单位统一转换为月薪(K)格式，处理特殊符号和"面议"情况。通过系统清洗，数据集质量显著提升，为后续职位分析奠定基础。

2025-06-28 23:02:38 1042

原创 FineBI（三）- 数据处理与分析

本文介绍了在FineBI中进行图书数据分析和处理的完整流程。主要内容包括：1)数据处理阶段的新建分析主题、重复值处理、字段设置和过滤操作；2)数据分析阶段的评分分布分析和价格分布分析，通过新增赋值列和分组汇总方法对图书评分和价格进行区间统计。文章详细展示了操作步骤和界面截图，帮助用户掌握数据清洗和分析的基本方法，最终得到图书评分和价格分布的统计结果，为图书采购和定价策略提供数据支持。

2025-06-26 17:10:33 832

原创 FineBI（二）- 数据导入

本文介绍了一个图书数据生成与分析的项目。首先使用Python脚本生成包含50,000条记录的图书数据集，涵盖15个类别和15家出版社，包含图书ID、书名、作者等10个字段，并支持CSV/Excel格式输出。随后展示了在FineBI平台导入数据的三种方式：数据库直连、SQL查询和文件上传。重点演示了通过CSV/Excel文件导入的方法，包括新建文件夹、上传数据文件等操作步骤。该项目为图书数据分析提供了完整的数据生成和导入解决方案。

2025-06-24 21:42:11 1218

原创 FineBI（一）- FineBI概述及试用版使用

FineBI是一款自助式商业智能分析工具，提供从数据准备到可视化的全流程解决方案。其特点包括易用的拖拽界面、高性能计算、丰富的数据可视化效果以及多源数据整合。安装Windows个人试用版时需执行安装向导，设置内存和数据库（推荐外接MySQL），完成初始化后即可登录使用。界面主要包含目录、我的分析和公共数据三大模块，支持数据管理和可视化分析。适用于企业快速数据探索和决策支持，无需专业技术背景即可上手操作。

2025-06-22 22:24:17 1279

原创豆瓣图书数据采集与可视化分析（四）- 豆瓣图书数据可视化（Pyecharts）

本文围绕豆瓣图书数据展开可视化分析，通过 Python 的 Pyecharts 库实现多维度数据的直观呈现。首先基于评分分布、价格区间、出版社规模等六类分析结果，分别采用条形图、饼图、词云图等可视化形式，清晰展示了图书评分分布、价格区间占比、出版社图书数量规模等数据特征。例如，通过环形玫瑰图呈现价格区间与图书数量的占比关系，利用词云图直观对比各出版社的图书出版规模。进一步将单图表整合成可视化大屏，通过网格布局配置实现六张图表的有序排列，并添加深蓝到紫蓝的渐变背景、亮青色标题等设计，增强科技感与视觉统一性。

2025-06-13 13:20:35 273

原创 MongoDB（八） - MongoDB GridFS介绍及使用Python操作GridFS

摘要 GridFS是MongoDB用于存储大型二进制文件的规范，它将文件分割成255KB的块存储，突破了单文档16MB的限制。主要应用于多媒体存储、备份归档、分布式文件系统等场景。其存储结构由fs.files（元数据）和fs.chunks（文件块）两个集合组成。操作方式包括MongoDB Shell（已弃用）和Python编程接口，通过put()、get()、list()等方法实现文件上传下载管理。Python示例展示了文件上传和查询元数据的基本操作，体现了GridFS在扩展性、可靠性和检索效率上的优势。

2025-06-11 00:06:24 1064

原创 Bootstrap项目 - 个人作品与成就展示网站

本文介绍了一个响应式个人作品集网站的开发实践，采用HTML5、CSS3和JavaScript技术栈，结合Tailwind CSS和Bootstrap框架实现。项目包含8个核心模块：多终端适配导航栏、沉浸式首页、专业技能展示、作品分类筛选、时间轴成就展示、博客文章及联系表单。通过动态进度条、悬停动效、网格布局等技术增强交互体验，并实现PC端与移动端的完美适配。项目成果展示了包括UI/UX设计作品、开发技能图谱、职业经历等专业内容，体现了前端开发与设计能力的有机结合。

2025-05-30 17:20:08 1532

原创 MongoDB（七） - MongoDB副本集安装与配置

本文详细介绍了在Linux环境下安装和配置MongoDB副本集的完整流程。主要内容包括：下载MongoDB安装包并上传至服务器；创建必要的数据和日志目录；解压安装包并配置mongod.conf文件；分发MongoDB到集群节点；配置环境变量；启动副本集服务；以及初始化副本集并添加节点。通过图文并茂的方式展示了每个操作步骤的执行过程和验证方法，最终实现了包含hadoop1（主节点）、hadoop2和hadoop3（副本节点）的三节点MongoDB副本集环境。

2025-05-29 23:27:20 1110

原创 Redis（四） - 使用Python操作Neo4j详解

本文提供了Python操作Neo4j图数据库的完整实战指南，涵盖从环境搭建到核心操作的完整流程。主要内容包括：1）Python插件安装与项目创建；2）Neo4j库的安装配置；3）节点和关系的创建方法（5种典型场景）；4）数据查询功能实现（4种查询模式）。通过详细的代码示例和可视化操作步骤，帮助开发者快速掌握Neo4j的基本操作，特别适合图数据库初学者和Python开发者参考使用。

2025-05-26 16:31:56 1014

原创 Neo4j（三） - 使用Java操作Neo4j详解

本文介绍了使用Java操作Neo4j图数据库的全流程指南。首先通过IDEA创建Maven项目并导入Neo4j驱动依赖，然后提供数据打印工具方法。重点讲解了节点和关系的创建、查询、更新、删除等核心操作，包括创建单个/多个节点、建立单向/双向关系、多种查询方式（基本查询、关联查询、条件过滤等）。通过示例代码展示了Cypher语句的使用和结果解析，帮助开发者快速掌握Neo4j的Java API操作。

2025-05-26 15:13:55 1593

原创 Neo4j（二） - 使用Cypher操作Neo4j

本文系统介绍了图数据库查询语言Cypher的核心语法与应用场景。主要内容包括：Cypher作为Neo4j的声明式查询语言，具有模式匹配强大、语法直观等特点；数据库基本操作如创建、查看和删除数据库（适用于企业版）；节点与关系的创建方法，通过示例演示了单节点、节点间关系及属性设置；数据查询部分重点讲解了MATCH命令的模式匹配机制，展示基础查询、关系查询及条件过滤。文章通过理论与实践结合，帮助读者快速掌握图数据库的核心操作范式，为图技术在社交网络分析、推荐系统等领域的应用奠定基础。

2025-05-24 17:56:54 1603

原创 Redis（四） - 使用Python操作Redis详解

本文是一篇关于使用 Python 操作 Redis 数据库的实战指南，旨在帮助开发者掌握 Redis 常见数据类型的操作方法。文章首先介绍了如何下载 Python 插件、创建项目、安装 Redis 库以及新建 Python 软件包，为后续操作奠定基础。接着，详细讲解了 Redis 的键操作和字符串操作，包括键的创建、查询、修改、删除，以及字符串的获取、设置、长度查询、内容替换和追加等操作。通过分步教程和代码示例，本文为 Python 初学者和 Redis 入门开发者提供了实用的参考，帮助其快速上手。

2025-05-23 12:06:31 2509

原创 Python数据可视化 - Pyecharts绘图示例

Pyecharts 是一个基于 Python 的开源数据可视化库，依赖 JavaScript 的 ECharts 库，能够生成交互式、高可定制的动态图表。它支持多种图表类型，如折线图、柱状图、地图等，并具备丰富的交互功能。Pyecharts 的优势在于易用性和表现力，能够与 Pandas 等数据处理库结合，适用于数据分析师、开发人员和科研人员。安装 Pyecharts 可通过 pip 命令完成。

2025-05-18 22:25:23 2022

原创 Neo4j（一） - Neo4j安装教程（Windows）

本文详细介绍了在Windows系统上搭建JDK与Neo4j开发环境的全流程。首先，梳理了JDK与Neo4j的版本对应关系，确保版本兼容性。接着，提供了JDK11的下载、解压及环境变量配置的图文指南，并验证配置是否成功。随后，介绍了Neo4j的下载、解压、环境变量配置及启动步骤，包括控制台模式与后台服务模式的使用场景。最后，展示了如何通过浏览器访问Neo4j的Web UI界面并进行登录与密码设置。本文旨在帮助开发者快速完成环境搭建，为基于Neo4j的图数据开发奠定基础。

2025-05-16 23:38:59 4682 11

原创 Redis（三） - 使用Java操作Redis详解

本文介绍了如何使用 Java 操作 Redis 数据库，重点讲解了通过 IDEA + Maven 搭建开发环境，并基于 Jedis 客户端实现 Redis 的常用操作。文章首先演示了如何创建 Maven 项目并导入 Jedis 依赖，随后详细展示了 Redis 键和字符串数据类型的操作示例，包括键的创建、查询、删除以及字符串的设置、获取、修改等操作。通过代码示例，帮助 Java 开发者快速掌握 Redis 的基本操作逻辑与编程接口。

2025-05-16 14:08:39 1975

原创 MongoDB（六） - Studio 3T 基本使用教程

本文将围绕 Studio 3T 的基本使用进行详细介绍，涵盖数据库、集合和文档的常见操作，并结合 IntelliShell 与 SQL 查询功能，帮助开发者提升工作效率。通过图文并茂的方式，旨在帮助初学者快速上手 Studio 3T，掌握其核心功能并应用于实际开发中。

2025-05-08 14:24:59 1077

原创 Hadoop生态圈框架部署 - Windows上部署Hadoop

Hadoop作为大数据领域的基石框架，在数据存储与处理方面展现出了卓越的性能与强大的扩展性，为海量数据的高效管理与分析提供了有力支撑。在当今数字化浪潮席卷全球，数据量呈爆发式增长的时代背景下，掌握Hadoop的安装与配置技能显得尤为重要，它是开启大数据世界大门的一把关键钥匙。无论是企业希望从繁杂的数据中挖掘商业价值，还是科研人员致力于数据分析以推动学术研究进展，Hadoop都能发挥其独特的优势。

2025-04-25 23:43:23 1541

原创豆瓣图书数据采集与可视化分析（三）- 豆瓣图书数据统计分析（Pandas）

本项目旨在通过对豆瓣图书数据集的详细分析，挖掘其中隐藏的规律和趋势，为图书出版行业、读者以及相关研究人员提供有价值的参考。从数据读取与保存这一基础环节出发，构建了完善的数据处理流程，确保能够高效地获取和存储清洗后的高质量数据，为后续分析筑牢根基。在数据分析阶段，从多个维度展开深入探究。在不同分类统计分析中，详细剖析了各类图书在数量、平均评分、平均评价人数以及平均价格等方面的表现，有助于出版方精准把握市场需求，读者快速定位感兴趣的图书类别。

2025-04-25 17:26:38 1144

原创豆瓣图书数据采集与可视化分析（二）- 豆瓣图书数据清洗与处理

本项目围绕豆瓣图书数据集展开，详细阐述了从数据的初步查看、各列数据的处理（包括拆分、格式转换、异常值处理等），到缺失值和重复值的处理，以及最终将处理后的数据保存到数据库的整个过程。

2025-04-20 17:38:37 297

原创豆瓣图书数据采集与可视化分析（一）- 豆瓣图书数据爬取

本项目将通过数据爬取技术，深入挖掘豆瓣图书分类标签页面以及各分类下的图书详细页面，采集关键信息，并运用合理的数据处理手段对采集到的数据进行清洗、整合，最终形成高质量的数据集。希望通过此次实践，不仅能为后续针对图书数据的分析与应用搭建良好的数据基石，也能为对数据采集与处理感兴趣的同行提供有价值的参考与借鉴，共同探索数据背后的无限可能，进一步推动图书相关领域在数据驱动下的创新发展。

2025-04-19 15:10:41 696

原创 Redis（二） - Redis命令详解

在当今数据驱动的应用开发领域，高效的数据存储与管理至关重要。Redis，作为一款高性能的键值对存储数据库，以其出色的性能、丰富的数据结构和广泛的应用场景，成为了众多开发者构建强大应用的得力工具。无论是缓存数据以加速应用响应，还是处理实时数据、实现分布式锁，Redis 都能发挥关键作用。本教程旨在为初学者和有一定经验的开发者，全面且系统地介绍 Redis 的基础操作，助力读者快速上手 Redis，开启高效数据处理的大门。

2025-04-18 17:54:22 1308

原创 Redis（一） - Redis安装教程（Windows + Linux）

在当今数字化时代，数据处理与存储的高效性对于各类应用程序的成功运行至关重要。Redis，作为一款高性能的键值对存储数据库，以其卓越的速度、丰富的数据结构和强大的功能，在众多技术场景中发挥着关键作用，已然成为现代软件开发中不可或缺的一部分。无论是构建高并发的 Web 应用，还是优化数据缓存策略，Redis 都能为开发者提供出色的解决方案，助力项目提升性能与用户体验。本文旨在为广大技术爱好者和开发者详细阐述 Redis 在不同操作系统环境下的安装流程，涵盖 Windows 与 Linux 两大主流平台。

2025-04-16 14:13:31 1839

原创豆瓣图书数据采集与可视化分析

并将这个数据表格保存为一个 CSV 文件，文件名为 “图书分类标签.csv”，存储在 “原始数据层” 文件夹下，保存时不包含索引列，并使用特定的编码格式（utf-8-sig）以确保中文字符的正确保存和读取。将提取到的每个图书分类标签的名称和对应的链接地址，以字典的形式存储，字典的键分别为 ‘name’ 和 ‘href’，值分别为标签名称和链接地址。对于每个选中的链接元素，提取其文本内容作为图书分类标签的名称，同时提取其链接地址，并将相对链接地址拼接上豆瓣读书的基础网址，得到完整的绝对链接地址。

2025-04-15 23:42:39 1712

原创基于SpringBoot和Vue的SQL TO API平台的设计与实现

在当今数字化飞速发展的时代，数据的价值愈发凸显，高效的数据交互与共享成为企业和组织提升竞争力的关键因素。传统的数据库操作方式，往往需要专业的数据库知识和复杂的 SQL 语句，这在一定程度上限制了数据的广泛应用和快速开发。为了打破这一壁垒，实现 SQL 数据与外部系统的便捷交互，基于 Spring Boot 和 Vue 构建的 SQL TO API 平台应运而生。Spring Boot 作为一款轻量级的 Java 开发框架，以其高效、便捷的特性，极大地简化了后端开发流程，提高了开发效率和代码的可维护性。

2025-03-28 16:58:40 977

原创 MongoDB（五） - Studio 3T 下载与安装教程

本文旨在全面且深入地为你介绍 Studio 3T。从其丰富的功能特性、跨平台使用的便捷性，到详细的下载安装步骤，以及关键的连接 MongoDB 操作，都将一一展开。无论你是初涉数据库领域的新手，渴望快速上手 MongoDB 管理工具；还是经验丰富的开发者或数据库管理员，寻求提升工作效率、优化数据库操作的方法，本文都将为你提供有价值的指引，助力你在使用 Studio 3T 管理 MongoDB 的道路上畅通无阻，充分挖掘数据的潜力，为项目的成功实施奠定坚实基础。

2025-03-23 15:56:48 2675 2

原创 MongoDB（四） - 掌握 Python 操作 MongoDB，看这一篇就够了

在当今数据驱动的时代，数据库管理与操作对于开发者而言至关重要。MongoDB 作为一款广受欢迎的非关系型数据库，以其灵活的文档模型、卓越的可扩展性和出色的性能，在各类项目中得到广泛应用。Python 作为一种简洁高效、功能强大的编程语言，为操作 MongoDB 提供了便利且强大的工具集。

2025-03-22 23:01:43 1476

原创 MongoDB（三） - 掌握 Java 操作 MongoDB，看这一篇就够了

在现代软件开发中，数据库操作是至关重要的一环。MongoDB 作为一款流行的 NoSQL 数据库，以其灵活的数据模型、高扩展性和出色的性能，被广泛应用于各类项目中。本文将详细介绍如何在 Java 项目中使用 MongoDB，从项目创建、依赖导入，到数据库、集合、文档的各种操作，以及聚合查询等高级应用，帮助读者快速掌握在 Java 环境下操作 MongoDB 的技能。

2025-03-22 22:01:45 1417

Matplotlib绘图示例

2025-07-28

昆明职位数据集，包含 17731 行、17 列数据

昆明职位数据集数据量颇为丰富，包含 17731 行、17 列数据，各个字段的含义如下表所示：字段名含义字段名含义 province 岗位所在省份 education 教育程度要求 city 岗位所在城市 company_name 招聘公司名称 category_1 岗位的一级分类 company_industry 招聘公司所属行业 category_2 岗位的二级分类 financing_status 招聘公司的融资状态 position 具体职位 company_size 招聘公司的规模 job_name 职位名称 skill 岗位所需技能 job_area 工作区域 benefits 公司提供的福利待遇 salary 薪资待遇 job_url 职位详情链接 experience 工作经验要求

2025-07-12

使用Python操作neo4j示例

2025-05-26

使用python操作redis示例

2025-05-23

Redis数据库+Jedis+使用Java操作Redis示例

2025-05-16

二手房数据集+多元线性回归分析+数据可视化

2025-04-11

广告投放效果数据集+数据分析+数据可视化

2025-04-11

二手房数据集+数据采集+数据分析+数据可视化

2025-04-11

母婴消费市场数据集+数据分析+数据可视化

2025-04-11

京东评论数据集+数据分析+数据可视化

2025-04-11

电商-超市销售数据分析与报表

2025-04-11

50个Pyecharts数据可视化案例+数据可视化+Pyecharts学习

2025-04-11

豆瓣图书数据爬取代码+selenium

2025-04-11

豆瓣图书数据集 129839 行

本数据集包含 129839 行，9 列，数据集包含如下字段： category_name：书籍的分类名称，可能是作者分类，如前几行均为 J.K. 罗琳相关书籍。 url：书籍在豆瓣的链接地址。 img_url：书籍图片的链接地址。 name：书籍名称。 pub：书籍的出版信息，包含作者、出版社、出版时间和价格等。 rating：书籍的评分，数据类型为 float64，部分存在缺失值。 rating_count：书籍的评价人数，以字符串形式呈现。 plot：书籍的情节简介，部分存在缺失值。 buy_info：书籍的购买信息，如价格、购买方式等，存在较多缺失值。整体来看，这个数据集主要围绕豆瓣上的图书信息，可用于分析不同分类书籍的评分情况、不同作者作品的受欢迎程度等。

2025-04-04

上海餐饮数据集+基于Python的上海餐饮数据可视化分析+聚类分析

内容概要这是一套完整的餐饮数据分析项目，涵盖了从数据清洗、数据分析到数据可视化的全流程。具体包括：数据清洗：对原始的上海餐饮数据进行预处理，处理包括将数据中的0替换为空值、数据类型转换、缺失值处理、异常值处理和重复数据处理等操作，最终保存清洗后的数据。数据分析：从多个维度对餐饮数据进行分析，如各类别和各行政区的总点评数、平均人均消费、平均评分，还进行了类别和行政区的频率分布分析，以及基于人均消费、口味评分、环境评分、服务评分和点评数的 K 均值聚类分析。数据可视化：将分析结果以多种可视化图表呈现，如词云图、柱状图、水平条形图和分组柱状图等，直观展示数据特征。适用人群数据分析师：可以学习到完整的数据处理和分析流程，以及如何运用 Python 进行数据操作和可视化。餐饮行业从业者：通过对餐饮数据的分析和可视化结果，了解不同类别和行政区的餐饮市场情况，为经营决策提供参考。 Python 编程学习者：可以借鉴代码中的数据处理技巧、数据分析方法和可视化库的使用，提升编程能力。适用场景：餐饮市场调研、餐饮企业经营分析、数据处理和可视化教学等。

2025-03-29

1905电影网中国地区电影数据集（27511行数据）

内容概要：该数据集包含了27511部电影的详细信息，涵盖了从电影ID到剧情简介等多个维度的数据点。每部电影的信息包括但不限于片长、导演、上映日期、状态（如是否已上映）、评分、类型、主演、其他名称、改编来源、编剧以及简短的剧情描述。适用人群：电影爱好者：可以用来查找感兴趣的电影，了解电影详情。研究人员：可用于进行电影行业趋势分析、观众偏好研究等。数据科学家：作为机器学习或数据分析项目的一部分，用于训练模型或测试算法。影评人：提供全面的电影信息，辅助撰写影评或进行比较分析。制片方：了解市场动态，参考成功案例以指导新项目的开发。使用场景及目标：构建推荐系统：基于用户的喜好推荐相似类型的电影。市场分析：通过分析不同类型电影的受欢迎程度来预测未来趋势。教育培训：用作影视制作相关课程的教学材料，帮助学生理解电影构成要素。内容策划：为媒体平台选择合适的内容，满足特定受众的需求。文化交流：促进不同国家和地区之间的电影文化交流。

2025-01-11

1905电影数据集（27534行）

内容概要：该数据集包含27534部电影的详细信息，每部电影的信息包括ID、链接、海报链接、标题、上映日期、状态（如是否已上映）、评分（如果有）、类型、主演等。此外，还包含了部分电影的导演、编剧、剧情简介以及改编来源（如果有的话）。值得注意的是，所有列出的电影在数据提供时均未上映，这为预测未来的票房成功、观众反应提供了潜在的研究价值。适用人群：电影爱好者：可以提前了解即将上映的电影，并根据个人喜好选择感兴趣的影片。影视产业从业者：包括制片人、导演、演员等，可以用作行业趋势分析，评估市场对不同类型电影的需求。研究人员与分析师：可用于进行电影行业的深入研究，比如观众偏好变化、特定类型电影的表现预测等。数据科学家与机器学习工程师：作为训练推荐系统或预测模型的数据源。媒体与娱乐公司：用于规划未来的内容策略，制定营销计划。使用场景及目标：内容推荐：利用用户的历史观影记录和个人偏好，推荐他们可能感兴趣的即将上映的电影。市场预测：通过分析不同类型的电影及其主要演员的影响，预测哪些电影可能会受到欢迎。投资决策支持：帮助投资者评估哪些电影项目值得投资，基于类似电影的历史表现。

2025-01-11

豆瓣图书数据集+数据分析

内容概要该数据集 douban_books.csv 是豆瓣读书的书籍信息，每一行代表一本书籍的详细资料。数据字段涵盖了书籍的基础信息（如书名、作者、出版社等）、出版详情（如出版年份、页数、定价等）、以及用户评价相关的信息（如评分、评论链接和各星级评价比例）。此外，还包括书籍的封面图片网络地址、国际标准书号(ISBN)、装帧类型等额外信息。适用人群研究人员：从事图书馆学、信息科学或社会科学研究的人可以使用此数据集来分析读者行为、书籍流行趋势等。开发人员与数据科学家：对于正在构建推荐系统或者进行数据分析的人来说，这些数据提供了丰富的变量用于建模和算法训练。出版业从业者：了解市场对不同类型书籍的接受度，评估竞争对手的产品，规划未来的出版策略。营销人员：可以通过分析用户评分和评论来制定更有效的营销策略。普通读者：寻找感兴趣的书籍，参考其他用户的评价做出更好的阅读选择。使用场景及目标书籍推荐系统：利用用户评分和其他元数据创建个性化书籍推荐服务。市场分析：研究特定类型书籍的市场表现，探索不同因素如何影响书籍的成功。学术研究：为关于文学、文化研究、读者心理学等领域提供

2025-01-09

低代码平台教你两步把SQL直接转换为RESTful API

2024-06-21

Spark-Streaming+HDFS实战

需求说明：从GBIF接口获取数据并处理为HDFS文件并映射为Hive外部表 ## 1. 目标： - 从GBIF（Global Biodiversity Information Facility）接口获取数据。 - 使用Spark Streaming处理数据。 - 将处理后的数据保存到HDFS文件系统。 - 创建Hive外部表，将HDFS文件映射为表。 ## 2. 数据源： - GBIF接口（https://api.gbif.org/v1/dataset）提供了生物多样性相关的数据集。 ## 3. 数据处理流程： - 使用HTTP请求从GBIF接口获取数据集。 - 使用Spark Streaming处理数据集，可以使用httpclient获取数据。 - 对获取的数据进行必要的转换、清洗和处理，以满足需求。 - 将处理后的数据保存到HDFS文件系统。 ## 4. HDFS文件保存： - 使用Spark Streaming将处理后的数据保存到HDFS文件系统。

2023-12-16

Spark-Streaming+Kafka+mysql实战示例

介绍一个使用Spark Streaming和Kafka进行实时数据处理的示例。通过该示例，您将了解到如何使用Spark Streaming和Kafka处理实时数据流，以及如何将处理后的数据保存到MySQL数据库中。示例涵盖了从环境搭建到代码实现的全过程，帮助您快速上手实时数据处理的开发。提供了一个完整的示例，演示了如何使用Spark Streaming和Kafka进行实时数据处理。通过该示例，我们可以学习到如何创建Kafka主题、发送消息到Kafka集群、从Kafka集群消费消息，并将消费到的消息保存到MySQL数据库中。这个示例涵盖了从数据源到数据处理和存储的完整流程，可以帮助你理解和应用实时数据处理的基本概念和技术。

2023-12-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Matplotlib绘图示例

昆明职位数据集，包含 17731 行、17 列数据

使用Python操作neo4j示例

使用python操作redis示例

Redis数据库+Jedis+使用Java操作Redis示例

二手房数据集+多元线性回归分析+数据可视化

广告投放效果数据集+数据分析+数据可视化

二手房数据集+数据采集+数据分析+数据可视化

母婴消费市场数据集+数据分析+数据可视化

京东评论数据集+数据分析+数据可视化

电商-超市销售数据分析与报表

50个Pyecharts数据可视化案例+数据可视化+Pyecharts学习

豆瓣图书数据爬取代码+selenium

豆瓣图书数据集 129839 行

上海餐饮数据集+基于Python的上海餐饮数据可视化分析+聚类分析

1905电影网中国地区电影数据集（27511行数据）

1905电影数据集（27534行）

豆瓣图书数据集+数据分析

低代码平台教你两步把SQL直接转换为RESTful API

Spark-Streaming+HDFS实战

Spark-Streaming+Kafka+mysql实战示例

C语言，大一C语言实验及报告

程序员考试大纲.zip

程序员2009-2019真题.zip

空空如也