Spark操作 aggregate、aggregateByKey 实例

本文介绍了Spark中的aggregate和aggregateByKey函数。aggregate对每个分区内的元素进行聚合,然后跨分区合并结果,返回值类型不限于原始RDD类型。aggregateByKey则针对PairRDD中的相同Key进行聚合,返回结果仍为PairRDD。文中通过实例展示了这两个函数的工作原理和使用方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. aggregate函数

       将每个分区里面的元素进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。seqOp操作会聚合各分区中的元素,然后combOp操作把所有分区的聚合结果再次聚合,两个操作的初始值都是zeroValue.   seqOp的操作是遍历分区中的所有元素(T),第一个T跟zeroValue做操作,结果再作为与第二个T做操作的zeroValue,直到遍历完整个分区。combOp操作是把各分区聚合的结果,再聚合。aggregate函数返回一个跟RDD不同类型的值。因此,需要一个操作seqOp来把分区中的元素T合并成一个U,另外一个操作combOp把所有U聚合。

 例子程序:

scala> val rdd = List(1,2,3,4,5,6,7,8,9)

scala> rdd.par.aggregate((0,0))(//把acc的acc._1/acc._2设置为0,0
(acc,number) => (acc._1 + number, acc._2 + 1),//是seqOp操作,number是rdd的元素值;每个元素值相加,同时个数再加1 
(par1,par2) => (par1._1 + par2._1, par1._2 + par2._2)//是combOp操作,对上一步seqOp处理的每个分区的结果做处理(每个分区的._1相加,每个分区的._2相加);
)
res0: (Int, Int) = (45,9)

scala&g
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二十六画生的博客

你的鼓励是我创作最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值