Spark获取两个RDD的映射关系数据

本文探讨了在Spark中利用RDD处理数据集映射关系,通过分步操作实现了新老数据集间的值集合覆盖判断,有效利用分布式计算优势提高处理效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题场景

有两个RDD的数据集A和B(分别称为新RDD和老RDD)以及一组关于这两个RDD数据的映射关系,如下图所示:

以及A和B的各元素映射关系的RDD,如下图所示:

上述映射关系,代表元素ac同义,若为url,则表示指向同一个页面,元素bd同理。

以第一列所组成的元素作为关键字,第二列作为值的集合。现要求输出映射对,使得在该映射关系下,B值集合可以覆盖A值集合的元素。如上结果应该为:(b, d)。因为A中以b为键的集合为B中以d为键的值集合的子集。
受到单机编程的思维定势,使用HashMap实现,虽然可以运行,但是太慢啦,所以改用另一种思路,可以充分利用分布式的优点。

解决方案

val data = sc.textFile("path_to_file").cache()
//1.以左边的为key,进行分组,统计每一个key所对应的值集合
val groupData = data.map(item => {
    val key = item._1 
    val value = item._1
    (key, value)
}).groupByKey

//2. 读取链接映射文件至map
//(AKey, BKey) 
val projectionMap = sc.textFile("hdfs://projection").cache()
// (AKey, BKey) 
val aData = projectionMap.map(item => (item._1, item._2))
// (BKey, AKey) 
val bData = projectionMap.map(item => (item._2, item._1))
// (AKey, (BKey, AValueSet)) 
val aKeyJoinData = aData.join(groupData)
// (BKey, (AKey, BValueSet)) 
var bKeyJoinData = bData.join(groupData)
// 交换新老键的位置,为后面的join做准备 (AKey, (BKey, BValueSet) )
bKeyJoinData = nbKeyJoinData.map(item => {(item._2._1, (item._1, item._2._2))})
//结果形式为(AKey, ((BKey, AValueSet), (BKey, BValueSet)))
val aBData = aKeyJoinData.join(bKeyJoinData)
aKeyJoinData.take(1).foreach(println)
// oldUrl -> newUrl
val resultMap = aBData.map(item => {
    val aValueSet = item._2._1._2.to[Set]
    val bValueAttrSet = item._2._2._2.to[Set]
    val subtractSet = aValueSet -- bValueAttrSet
    //若新的URL属性可以完全覆盖旧的url属性, 即 oldAttrSet与newAttrSet的差集为空
    if(subtractSet.isEmpty)
    	(item._1, item._2._1._1)
    else ("", "")
}).filter(_._1 != "")
resultMap.take(1).foreach(println)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值