- 博客(10)
- 收藏
- 关注
原创 Spark实战指南:从入门到精通
text数据分区:合理设置分区数(建议每个分区128MB)避免数据倾斜:使用盐化技术或自定义分区器内存管理:合理配置内存比例(持久化策略:根据数据使用频率选择存储级别广播变量:小数据集使用广播减少网络传输检查点机制:流处理中定期保存状态监控调优:利用Spark UI分析性能瓶颈。
2025-06-26 15:45:31
1007
原创 网络爬虫实战指南:从基础到Scrapy框架
在大数据时代,数据是 “金矿”,网络爬虫就是挖掘工具!不管是做市场分析、学术研究,还是搞趣味数据收集,掌握爬虫都能让你高效获取网页信息,从海量互联网内容里 “捞” 到有价值的数据。网络爬虫学习不难,跟着这些模块一步步来,多练项目(比如爬豆瓣电影 Top250、知乎专栏文章 ),你也能成为数据 “捕捞达人”,从互联网海洋里捞出宝藏数据!像滚动加载的新闻、电商商品页,内容是 JavaScript 动态渲染的,直接用。,不过正则写复杂了容易出错,和 BeautifulSoup 配合用更好。
2025-06-26 14:51:34
1294
1
原创 Hadoop:开启大数据处理的新篇章
Hive 无疑是这个城市中的 “数据仓库大厦”,它为用户提供了一种类似于 SQL 的查询语言 HiveQL,使得那些熟悉传统数据库查询语言的用户能够轻松地对存储在 Hadoop 中的数据进行复杂的查询和分析操作。在当今这个信息爆炸的时代,数据量呈指数级增长,从社交媒体的海量用户动态、电子商务平台的交易记录,到物联网设备产生的持续数据流,传统的数据处理方式已难以应对如此庞大且复杂的数据集合。而 Hadoop 的出现,宛如一把钥匙,为我们打开了高效处理大数据的大门,在全球范围内掀起了一场数据处理的变革浪潮。
2024-12-16 14:10:23
1073
原创 数据可视化
数据可视化,从本质上讲,是一种将数据以图形、图表、地图、信息图等丰富多样的视觉形式展现出来的艺术与技术。它绝非仅仅是对数据的简单描绘,而是深度挖掘数据内在价值,并以一种人类视觉系统能够迅速理解和吸收的方式进行表达。例如,在呈现全球气候变化数据时,一幅色彩渐变的地图(图 1),能够清晰地展示出不同地区气温的升高或降低趋势,让我们一眼就能捕捉到热点区域和变化显著的地带,而无需在冗长繁杂的表格数据中艰难寻觅规律。其重要性不言而喻,在信息爆炸的今天,我们的大脑处理视觉信息的速度远远快于文字信息。
2024-12-09 00:48:03
1733
原创 Python大数据分析与应用
该数据集包含了客户消费行为的相关信息,包括客户ID、最近消费天数、消费次数、消费金额、折扣次数和积分兑换次数。:该数据集包含了客户的信用信息,包括信用状态、工龄、居住情况、贷款期限、年龄、婚姻状况、是否有不良记录、职业、支出、收入、资产、债务、申请金额和价格。项目背景本项目旨在通过K-means聚类算法对客户的消费数据进行分析,识别不同类型的客户群体。数据集包含了客户的多种属性,如最近消费天数、消费次数、消费金额、折扣次数和积分兑换次数。数据加载与初步探索。
2024-11-10 15:58:06
896
1
原创 Python数据可视化一课一得
在今天的探索中,我们体验到了Python数据分析如何像施展魔法一样,将看似平凡的销售数据转化为洞察市场动态的宝贵信息。NumPy、Pandas和Matplotlib这三个强大的工具,就像魔法书中的咒语和法杖,引领我们走进了一个充满奥秘的数据世界。我们先用Pandas的魔法咒语“read_csv”唤醒了沉睡在CSV文件中的销售数据,让它们以表格的形式展现在我们面前。接着,通过Pandas的分组和聚合功能,我们施展出“groupby”和“sum”的魔法,计算出了销售额的统计信息,并找到了销售额最高的产品类别。
2024-06-30 21:45:00
621
原创 MongoDB基本操作
MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它文持的数据结构非常松散,是类似ison的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
2024-06-28 22:17:59
1369
原创 MongoDB副本集部署(windows)
副本集的优点1.高可用性:副本集提供了自动故障转移功能,确保在主节点宕机时,副本节点能够自动接替主节点,继续提供服务。2.冗余性:副本集提供了数据冗余,确保了数据的安全性和可靠性。即使个别节点出现故障,整个系统仍然可以继续运行。3.负载均衡:副本集可以实现负载均衡,将读写操作分布在多个节点上,提高系统性能。4.回滚支持:副本集支持回滚操作,当发现数据不一致时,可以通过回滚操作恢复到一致的状态。
2024-06-28 21:43:51
1714
原创 MongoDB分片部署(windows)
分片( Sharding )技术是开发人员用来提高数据存储和数据读写吞吐量常用的技术之一。简单的来说,分片主要是将数据进行划分后,将它们分别存放于不同机器上的过程。通过使用分片可以实现降低单个机器的压力和处理更大的数据负载功能。分片与副本集主要区别在于,分片是每个节点存储数据的不同片段,而副本集是每个节点存储数据的相同副本所有数据库都可以进行手动分片( Manual Sharding ),因此,分片并不是 MongoDB 特有的。
2024-06-28 21:07:55
1660
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人