1. aggregate函数
将每个分区里面的元素进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。seqOp操作会聚合各分区中的元素,然后combOp操作把所有分区的聚合结果再次聚合,两个操作的初始值都是zeroValue. seqOp的操作是遍历分区中的所有元素(T),第一个T跟zeroValue做操作,结果再作为与第二个T做操作的zeroValue,直到遍历完整个分区。combOp操作是把各分区聚合的结果,再聚合。aggregate函数返回一个跟RDD不同类型的值。因此,需要一个操作seqOp来把分区中的元素T合并成一个U,另外一个操作combOp把所有U聚合。
例子程序:
scala> val rdd = List(1,2,3,4,5,6,7,8,9)
scala> rdd.par.aggregate((0,0))(//把acc的acc._1/acc._2设置为0,0
(acc,number) => (acc._1 + number, acc._2 + 1),//是seqOp操作,number是rdd的元素值;每个元素值相加,同时个数再加1
(par1,par2) => (par1._1 + par2._1, par1._2 + par2._2)//是combOp操作,对上一步seqOp处理的每个分区的结果做处理(每个分区的._1相加,每个分区的._2相加);
)
res0: (Int, Int) = (45,9)
scala&g