Spark如何用累加器Accumulator收集日志

最新推荐文章于 2024-11-11 20:11:53 发布

HanhahnaH

最新推荐文章于 2024-11-11 20:11:53 发布

阅读量605

点赞数 9

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hanhahahahah/article/details/135936717

本文介绍了如何在Spark任务中利用Accumulator收集所有Executor的日志，通过注册Accumulator工具、在Executor中添加日志信息，最终在Driver端打印汇总的日志内容，简化了日志查看过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark如何用累加器Accumulator收集日志

Accumulator
如何使用Accumulator收集日志

Spark任务的实际运算是交由众多executor来执行的，如果再执行算子内部打印日志，是需要到对应的executor上才能看到。当不知道对应executor的情况下就需要挨个查询日志，是否不方便。是否有办法可以收集所有executor上的日志内容打印在driver上呢？这样就可以直接在stdout里看到所有日志。

Accumulator

spark累加器Accumulator是spark提共的两种共享变量（广播变理和累加器）的一种。为什么要使用共享变量呢？通常情况下，当向Spark操作(如map,reduce)传递一个函数时，它会在一个远程集群节点上执行，它会使用函数中所有变量的副本。这些变量被复制到所有的机器上，远程机器上并没有被更新的变量会向驱动程序回传，也就是说有结果Driver程序是拿不到的！共享变量就是为了解决这个问题。本博文介绍其中的一种累加器Accumulator。

累加器只能够增加。只有driver能获取到Accumulator的值（使用value方法），Task（excutor）只能对其做增加操作（使用 +=）。

如何使用Accumulator收集日志

注册日志

val accumTool: AccumulatorTool = new AccumulatorTool()
SparkSession.</

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。