rdd数据存内存数据量_RDD关键性能考量之内存管理

最新推荐文章于 2022-09-28 14:06:28 发布

我要抢一个娘亲

最新推荐文章于 2022-09-28 14:06:28 发布

阅读量376

点赞数

CC 4.0 BY-SA版权

文章标签： rdd数据存内存数据量

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42502811/article/details/111976150

本文探讨了Spark大数据分析中的关键性能考量，重点关注内存管理。内存主要用于RDD缓存、数据混洗与聚合的缓存以及用户代码。Spark通过spark.stroage.memoryFraction和spark.shuffle.memoryFraction参数控制这两部分的内存比例。当用户代码占用大量内存时，可以调整这些比例以避免内存不足。此外，使用MEMORY_AND_DISK存储等级和序列化持久化可以优化缓存行为，减少垃圾回收带来的影响，提高应用稳定性。适时调整缓存策略和利用序列化能有效提升性能和减少计算成本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《Spark快速大数据分析》

8.4.2 关键性能考量内存管理

内存对Spark来说哟几个不同的用途，理解并调优Spark的内存使用方法

可以帮助优化Spark应用。在各个执行器进程中，内存有一下所列集中用途。

RDD存储

当调用RDD的persist()或cache()方法时，这个RDD的分区会被存储到缓存区中。

Spark会根据spark.stroage.memoryFraction限制用来缓存的内存占整个JVM堆空间的比例大小。

如果超出限制，旧的分区数据会被移出内存。

数据混洗与聚合的缓存区

当进行数据混洗操作时，Spark会创建出一些中间缓存区来存储数据混洗的输出数据。

这些缓存区用来存储聚合操作的中间结果，以及数据混洗操作中直接输出的部分缓存数据。

Spark会尝试根据spark.shuffle.memoryFraction限定这种缓存区内存占总内存的比例。

用户代码

Spark可以执行任意的用户代码，所以用户的函数可以自行申请大量内存。

例如，一个用户应用分配了巨大的数组或者其他对象，那这些都会占用总的内存。

用户代码可以访问JVM堆空间中分配给RDD存储和数据混洗存储以为的全部剩余空间。

默认情况下Sparkhi使用60%的空间来存储RDD，20%存储数据混洗操作产生的数据，

剩下的20%留给用户程序。用户可以自行调节这些选项来追求更好的性能表现。如果用户代码

上分配了大量的对象，那么降低RDD存储和数据混洗存储所占用的空间可以有效避免内存不足的情况。

除了调整内存各区域比例，还可以为一些工作负载改进缓存行为的某些要素。Spark默认的cache()操作

以MEMORY_ONLY的存储等级持久化数据。这意味着如果缓存新的RDD分区时空间不够，旧的分区就会直接被删除。

当用到这些分区数据时，再进行重新计算。所以有时以MONORY_AND_DISK的存储等级调用persist()方法会获得更好的

效果，因为i在这种存储等级下，内存中放不下的旧的分区会被写入磁盘，当再次需要用到的时候再从磁盘上

读取回来。这样的代价有可能比重新计算各分区要低很多，也可以带来更稳定的性能表现。当RDD分区的重算代价很大时，

这种设置尤其有用。

对于默认缓存策略的另一个改进是缓存序列化后的对象而非直接缓存。可以通过MEMORY_ONLY_SER 或者 MEMORY_AND_DISK_SER

的存储等级来实现这一点。缓存序列化后的对象会使缓存过程变慢，因为序列化对象也会消耗一些代价，

不过这可以显著减少JVM的垃圾回收时间，因为很多独立的记录现在可以作为单个序列化的缓存而存储。

垃圾回收的代价与堆里的对象数目相关，而不是和数据的字节数相关。这种缓存方式会把大量的对象

序列化为一个巨大的缓存区对象。如果需要以对象的形式缓存大量数据，或者是注意到了长时间的垃圾回收暂停，

可以考虑配置这个选项。这些暂停时间可以在应用界面中显示的每个任务的垃圾回收时间那一栏看到。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。