大数据学习之路18-线段重叠次数topN计算,自定义GroupingComparator

最新推荐文章于 2024-09-17 08:00:00 发布

未来@音律

最新推荐文章于 2024-09-17 08:00:00 发布

阅读量479

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据生态圈从入门到精通

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_37050372/article/details/81773708

大数据生态圈从入门到精通专栏收录该内容

132 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

在大数据处理中，原始方法在计算线段重叠次数最多TopN时存在效率问题，因为即使达到条件仍会继续执行reduce。为优化此问题，可以使用自定义的GroupingComparator，使相同key的数据被worker视为一组，从而减少reduce调用次数。本文介绍如何实现这个优化，包括继承GroupingComparator并重写compare方法，以及调整reduce代码以提高效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在上一节中我们求重叠次数最多的前三个的时候我们使用的是变量，当等于三的时候就return,其实这样做有缺点，虽然return了可是后面的reduce还是会照样执行。这样会影响执行效率。接下来我们优化一下。

优化思路：想办法让worker将那一堆数据看成一组，这样的话worker就会将那一堆数据只调用一次reduce

这样就涉及到一个知识点，worker是如何让key相同的为一组的？我们要知道我们的数据本质上是在文件中的。文件中的内容其实是序列化的结果。这样就有两种比较是否想通过的方法：

第一种：直接比较文件中序列化的字节

第二种：读出字节并反序列化变成java对象再比较

那么如何比较两个对象是否相等呢？这里它做的没有这么死，它提供了一种方法，这个方法给你两个对象，然后由你来告诉他这两个对象是否相等。

worker是通过下面的接口实现类中的方法来判断两个key是否相等，以便于是否看成同一组：

WritableComparator类：

        compare(key1,key2){

           return 0; //这里如果return 0，那么任何两个对象都会相等。

         }

所以如果想实现我们的功能，我们可以继承这个父类，然后告诉worker别用他默认的方法了，用我们自己重写的方法。

compare(WritableComparable a, WritableComparable b)我们应该用这个方法，这个方法会帮我们从这个文件反序列化成对象。但是我们用这个

了解本专栏

超级会员免费看