- 博客(11)
- 收藏
- 关注
原创 网络爬虫核心技术:从入门到框架实战
在当今数字化时代,数据已成为驱动业务决策和创新的关键因素。技术作为数据收集的重要手段,广泛应用于多个领域。本篇博客将深入探讨Python爬虫的核心概念、工具库、框架及实战技巧,帮助读者全面掌握这一关键技术。一、爬虫基础概念爬虫的定义与作用爬虫,也称为"网络爬虫"或"网络蜘蛛",是一种自动从网络获取信息的程序。它模拟用户浏览器行为,向目标网站发送请求,获取网页内容后进行解析,提取所需数据,并可将数据存储至本地或数据库。爬虫在数据挖掘、新闻监控、商品比价、学术研究等场景发挥着重要作用。应用场景分析。
2025-06-29 16:44:08
1649
原创 Spark:从基础到实战
在领域,Spark凭借其高性能和易用性脱颖而出。它不仅能够处理海量数据,还支持多种计算模式,包括批处理、流处理和交互式查询。本文将深入解析Spark的核心概念、RDD操作、Spark SQL的使用,以及如何通过丰富的案例来掌握这门强大的技术。一、Spark基础概念Spark生态系统(首页概述包含生态系统组件)Spark架构(详细说明运行时架构)Spark运行模式部署模式总览(Local/YARN/Mesos/K8s等对比)Spark生态系统。
2025-06-29 15:28:39
853
原创 java从基础到实战
概念核心作用核心语法典型场景类与对象封装数据与行为构造方法、成员变量 / 方法数据模型(用户、订单)继承与多态代码复用、运行时行为差异化extendsabstract@Override插件系统、策略模式接口实现定义契约,支持多继承implements、默认方法事件监听、服务提供者封装与访问控制隐藏实现细节,保护数据privatepublicprotected安全敏感数据(账户余额)静态成员类级别的属性和方法static工具类(Math)、计数器内部类。
2025-06-29 14:43:46
768
原创 Hadoop中的MapReduce计算平均数
一、 大数据时代挑战大数据时代带来了前所未有的挑战,企业需要有效应对并充分利用这些挑战带来的机遇。数据量的增长已经成为企业面临的一个突出问题。随着业务规模的不断扩大和数字化转型的推进,企业每天都会产生大量的数据,这些数据不仅仅是结构化的数据,还包括半结构化和非结构化的数据。这些数据对于企业的运营和决策至关重要,但同时也带来了极大的挑战。传统的数据处理方式已经无法满足大数据时代的需求,因此企业需要采用新的技术和方法来处理这些数据。数据量增长带来的挑战是显而易见的。随着数据量的不断增加,企业需要处理的数据
2024-12-16 19:37:39
765
原创 Python数据可视化基础
数据可视化是数据呈现为图形或图表的技术,它有助于理解和 发现数据中的模式和趋势。Python是一种流行语言,有很多库可以帮助我们进行数据可视化。在本文中,我们将介绍使用Python进行数据可视化的基础步骤。在开始之前,我们要导入一些必要的库,例如Pandaas、Matplob和Seaborn等。设置seaborn的字体,中文用SimHei,英文Arial。引入数据,nps格式,用numpy去读取。注意保存的路径,不然可能会报错!设置pyplot的动态rc参数。部门是销售部,离职是1的数据。
2024-06-29 14:54:48
338
原创 MongoDB基本操夯
这种扫描全集合的查询效率是非常低的,尤其是在处理海量数据时,执行查询操作需要花费几 十秒甚至几分钟的时间,这无疑对网站的性能是非常致命的。如果是写操作,内存还可以把随机的写操作转换成顺序的写操作,总之可以大幅度提升性能。mongodb数据库从节点可以复制主节点的数据,主节点所有对数据的操作都会同步到从节点,从节点的数据和主节点的数据是完全一样的,以作备份。一个集合中可以存储一个键值对的文档,也可以存储多个键值对的文档,还可以存储键不一样的文档,而且在生产环境下可以轻松增减字段而不影响现有程序的运行。
2024-06-09 18:20:03
773
原创 MongoDB副本集部署(windows)
客户端程序(Client Application)通过驱动器(Driver)连接副本集主节点(Primary)进行读写操作,当主节点数据副本发生变化,此时副本节点(Secondary)通过Replication(复制)同步主节点的数据副本,使副本集中副本节点与主节点存储相同数据副本 副本集中的各节点还会通过传递心跳信息(Heartbeat)来检测各自的健康状态。ongoDB官网建议当副本集成员个数大于二时,推荐副本集成员个数为奇数个,而不使用仲裁节点。
2024-06-09 17:44:05
692
原创 MongoDB分片部署(windows)
分片( Sharding )技术是开发人员用来提高数据存储和数据读写吞吐量常用的技术之一。简单的来说,分片主要是将数据进行划分后,将它们分别存放于不同机器上的过程。通过使用分片可以实现降低单个机器的压力和处理更大的数据负载功能。分片与副本集主要区别在于,分片是每个节点存储数据的不同片段,而副本集是每个节点存储数据的相同副本所有数据库都可以进行手动分片( Manual Sharding ),因此,分片并不是 MongoDB 特有的。
2024-05-19 19:04:43
614
原创 MongoDB副本集部署(windows)
副本集成员框架客户端程序(Client Application)通过驱动器(Driver)连接副本集主节点(Primary)进行读写操作,当主节点数据副本发生变化,此时副本节点(Secondary)通过Replication(复制)同步主节点的数据副本,使副本集中副本节点与主节点存储相同数据副本。MongoDB副本集成员数与oplogMongoDB官网建议当副本集成员个数大于二时,推荐副本集成员个数为奇数个,而不使用仲裁节点。
2024-04-24 14:33:27
922
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人