周彩虹20230322035-CSDN博客

原创 Apache Spark核心原理与实战指南

Apache Spark作为新一代分布式计算框架，以其内存计算、DAG调度和丰富的API生态成为大数据领域的事实标准。相比内存计算机制：Spark采用基于内存的中间数据存储方式，避免Hadoop MapReduce频繁的磁盘I/O操作。例如在进行迭代算法时，Spark可将中间结果缓存到内存中，而MapReduce每次迭代都需要将数据写入HDFS，导致性能瓶颈。DAG执行引擎。

2025-06-26 15:45:57 682

随着互联网技术的快速发展，企业对信息化管理的需求日益增长。本次开发的项目是为一家中小型制造企业打造的生产管理系统，旨在帮助企业实现生产流程的数字化管理，提高生产效率，降低运营成本。该企业原有系统存在功能陈旧、操作繁琐、数据统计不及时等问题，迫切需要一套全新的系统来满足当前的业务需求。技术提升：通过本次项目开发，深入学习和掌握了 Spring Boot、MyBatis、Vue.js 等技术的应用，提高了自己的技术水平和项目开发能力。团队协作。

2025-06-19 09:05:16 896

原创什么是网络爬虫

网络爬虫（Web Crawler），也被称为网络蜘蛛（Web Spider）或网络机器人（Web Robot），是一种按照一定的规则，自动抓取万维网信息的程序或脚本。它通过模拟人类浏览器的行为，在互联网上遍历网页，提取其中的文本、图片、链接等数据，为后续的数据分析、处理和应用提供原始素材。

2025-06-18 11:05:54 1058

原创数据可视化使用jQuery绘制中国地图

定义：数据可视化是一种将数据以视觉形式表现出来的数据研究方法，也可以理解为是将相对晦涩的数据通过可视的、交互的方式进行展示的过程。目的：通过视觉化的方式传达数据的信息，帮助用户更好地理解数据，发现数据中的规律、趋势、模式以及异常情况，从而支持决策制定、故事讲述和洞察发现。

2024-12-25 23:43:43 471

原创深入理解 Hadoop - MapReduce 分布式计算框架

Hadoop 是一个开源的分布式计算平台，由 Apache 软件基金会开发和维护。MapReduce 是 Hadoop 的核心组件之一，它提供了一种简单而强大的编程模型，用于在大规模集群上并行处理海量数据。

2024-11-11 16:44:35 1074

原创什么是关联规则

关联规则是数据挖掘中的一种重要技术，用于发现大型数据集中项集之间的有趣关系。

2024-11-04 15:31:45 1309 2

原创 Matplotlib,Seaborn,Pyecharts数据可视化基础

漏斗图是一种直观的图表，适用于表现关键数量随着规范流程的单向进行，在流程的每个环节逐级减少的场景。

2024-06-26 09:22:28 977

原创 mongoDB分片部署

一.部署方式MongoDB 有三种集群部署模式，分别为主从复制（Master-Slaver）、副本集（Replica Set）和分片（Sharding）模式。1.Master-Slaver 是一种主从副本的模式，目前已经不推荐使用。2.Replica Set 模式取代了 Master-Slaver 模式，是一种互为主从的关系。Replica Set 将数据复制多份保存，不同服务器保存同一份数据，在出现故障时自动切换，实现故障转移，在实际生产中非常实用。

2024-05-08 00:39:13 848