- 博客(9)
- 收藏
- 关注
原创 Apache Spark核心原理与实战指南
Apache Spark作为新一代分布式计算框架,以其内存计算、DAG调度和丰富的API生态成为大数据领域的事实标准。相比内存计算机制:Spark采用基于内存的中间数据存储方式,避免Hadoop MapReduce频繁的磁盘I/O操作。例如在进行迭代算法时,Spark可将中间结果缓存到内存中,而MapReduce每次迭代都需要将数据写入HDFS,导致性能瓶颈。DAG执行引擎。
2025-06-26 15:45:57
682
原创 Java 综合项目开发实践
随着互联网技术的快速发展,企业对信息化管理的需求日益增长。本次开发的项目是为一家中小型制造企业打造的生产管理系统,旨在帮助企业实现生产流程的数字化管理,提高生产效率,降低运营成本。该企业原有系统存在功能陈旧、操作繁琐、数据统计不及时等问题,迫切需要一套全新的系统来满足当前的业务需求。技术提升:通过本次项目开发,深入学习和掌握了 Spring Boot、MyBatis、Vue.js 等技术的应用,提高了自己的技术水平和项目开发能力。团队协作。
2025-06-19 09:05:16
896
原创 什么是网络爬虫
网络爬虫(Web Crawler),也被称为网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一种按照一定的规则,自动抓取万维网信息的程序或脚本。它通过模拟人类浏览器的行为,在互联网上遍历网页,提取其中的文本、图片、链接等数据,为后续的数据分析、处理和应用提供原始素材。
2025-06-18 11:05:54
1058
原创 数据可视化使用jQuery绘制中国地图
定义:数据可视化是一种将数据以视觉形式表现出来的数据研究方法,也可以理解为是将相对晦涩的数据通过可视的、交互的方式进行展示的过程。目的:通过视觉化的方式传达数据的信息,帮助用户更好地理解数据,发现数据中的规律、趋势、模式以及异常情况,从而支持决策制定、故事讲述和洞察发现。
2024-12-25 23:43:43
471
原创 深入理解 Hadoop - MapReduce 分布式计算框架
Hadoop 是一个开源的分布式计算平台,由 Apache 软件基金会开发和维护。MapReduce 是 Hadoop 的核心组件之一,它提供了一种简单而强大的编程模型,用于在大规模集群上并行处理海量数据。
2024-11-11 16:44:35
1074
原创 Matplotlib,Seaborn,Pyecharts数据可视化基础
漏斗图是一种直观的图表,适用于表现关键数量随着规范流程的单向进行,在流程的每个环节逐级减少的场景。
2024-06-26 09:22:28
977
原创 mongoDB分片部署
一.部署方式MongoDB 有三种集群部署模式,分别为主从复制(Master-Slaver)、副本集(Replica Set)和分片(Sharding)模式。1.Master-Slaver 是一种主从副本的模式,目前已经不推荐使用。2.Replica Set 模式取代了 Master-Slaver 模式,是一种互为主从的关系。Replica Set 将数据复制多份保存,不同服务器保存同一份数据,在出现故障时自动切换,实现故障转移,在实际生产中非常实用。
2024-05-08 00:39:13
848
原创 mongoDB副本集群
副本集是一组相互连接的MongoDB节点,其中包括一个主节点(Primary)和多个从节点(Secondaries)。副本集通过自动复制数据和自动故障转移来保证数据库系统的高可用性和数据一致性。
2024-04-21 19:58:56
803
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人