Spark操作 aggregate、aggregateByKey 实例

最新推荐文章于 2025-06-11 20:00:56 发布

二十六画生的博客

最新推荐文章于 2025-06-11 20:00:56 发布

阅读量833

点赞数

CC 4.0 BY-SA版权

分类专栏： Hive Spark Hadoop MapReduce 文章标签： Spark aggregate aggregateByKey

本文链接：https://blog.csdn.net/u010002184/article/details/111479043

Hive Spark Hadoop MapReduce 专栏收录该内容

162 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Spark中的aggregate和aggregateByKey函数。aggregate对每个分区内的元素进行聚合，然后跨分区合并结果，返回值类型不限于原始RDD类型。aggregateByKey则针对PairRDD中的相同Key进行聚合，返回结果仍为PairRDD。文中通过实例展示了这两个函数的工作原理和使用方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. aggregate函数

将每个分区里面的元素进行聚合，然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。seqOp操作会聚合各分区中的元素，然后combOp操作把所有分区的聚合结果再次聚合，两个操作的初始值都是zeroValue. seqOp的操作是遍历分区中的所有元素(T)，第一个T跟zeroValue做操作，结果再作为与第二个T做操作的zeroValue，直到遍历完整个分区。combOp操作是把各分区聚合的结果，再聚合。aggregate函数返回一个跟RDD不同类型的值。因此，需要一个操作seqOp来把分区中的元素T合并成一个U，另外一个操作combOp把所有U聚合。

例子程序：

scala> val rdd = List(1,2,3,4,5,6,7,8,9)

scala> rdd.par.aggregate((0,0))(//把acc的acc._1/acc._2设置为0，0
(acc,number) => (acc._1 + number, acc._2 + 1),//是seqOp操作，number是rdd的元素值；每个元素值相加，同时个数再加1 
(par1,par2) => (par1._1 + par2._1, par1._2 + par2._2)//是combOp操作，对上一步seqOp处理的每个分区的结果做处理（每个分区的._1相加，每个分区的._2相加）；
)
res0: (Int, Int) = (45,9)

scala&g