图自监督学习在腾讯Angel Graph中的实践

本文介绍了图自监督学习的概念、分类,并详细探讨了基于Angel Graph的图自监督学习算法实现,包括PyTorch on Angel图计算架构、图自监督学习功能模块以及MVGRL算法的实现、优化和应用场景。研究表明,图自监督学习有助于解决图数据标签不足的问题,提高算法的泛化性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

| 导语  图灵奖得主Yoshua Bengio和Yann LeCun在2020 ICLR大会上,在谈到深度学习领域里的研究趋势时都表示,自我监督学习是让人工智能推理更像人类的关键,有望使AI产生类人的推理能力。

近几年来,图神经网络备受关注与研究, 同时在很多领域都取得了不错的应用效果, 如:社交,广告,金融,黑产,生物等诸多领域。图神经网络的广泛应用的同时也暴露出一些问题。 比如:目前应用比较多的算法通常是半监督或监督算法,究其原因,带有标注的样本能够为算法提供更多的信息, 使得算法学习的更好, 但海量的、高质量的标注数据获取困难,因此也就催生了对自监督的研究。

Angel图计算经过几年的发展,沉淀了一些GNN算法,涵盖有监督与无监督, 在业务场景中这些算法取得了不错成果,但也会遇到因标签不足而带来的诸多问题, 因此我们对图自监督学习算法进行了研究并将算法落地到Angel Graph中。

如图1为Angel GNN现有算法分布图,其中图自监督学习是本文讨论的重点(这里提到的同构图、异构图是从节点角度考虑的)。

图1. Angel GNN算法概览

图自监督学习

1. 什么是图自监督学习

自监督学习(Self Supervised Learning, SSL)包含有监督和无监督任务,其学习目标是希望学到一个能很好代表输入的表示, 并将其用到监督任务中。在自监督学习中,模型被训练到只给一部分数据,就能预测出另外一部分数据。

SSL帮助模型从未标记的数据中学习更多的一般化表示,因此它可以在下游任务上有更好的泛化性。继SSL在计算机视觉(CV)和自然语言处理(NLP)方面取得巨大成功之后,SSL也被应用到了图结构的研究当中。

由于图数据处于非欧式空间,很难将CV/NLP领域的自监督学习直接迁移过来,因此针对图网络的特殊性演化出一类算法,其借鉴SSL的同时结合网络结构的特性,即图自监督学习。

2. 图自监督学习算法分类

由于划分角度不同, 图自监督学习算法分类方式也有不同, 比如:澳大利亚蒙纳士大学(Monash University)图机器学习团队联合中科院、联邦大学,以及数据科学权威 Philip S. Yu 对图自监督学习算法进行了归类,分为以下四类[1]:

基于生成的图自监督学习方法,基于属性的图自监督学习方法,基于对比的图自监督学习方法,以及混合型方法,如图2所示;Yaochen Xie, Zhao Xu等人则从代理任务的设计方式上,将图自监督学习分为预测模型和对比模型[2];本文接下来将会借鉴第一种划分方式进行介绍。

图2. 图自监督学习方法分类

a. 基于生成的方法(Generation-based Method)

基于生成的方法主要通过重构输入数据并将输入数据作为监督信息进行模型学习,如图3所示。

从重构对象的角度可以划分为:特征生成和结构生成;特征生成方法通过从扰动图或原始图中恢复特征信息来进行学习,重构的对象可以是网络中的任何特征矩阵,或者变换后的特征矩阵, 一般使用MSE作为自监督损失函数,如:Graph Completion[3]掩盖节点特征,通过其节点邻居特征来对其进行预测。

结构生成方法的学习目标是恢复网络结构信息,网络结构可以表示为邻接矩阵,通常邻接矩阵是一个稀疏的二值(0或1)矩阵, 因此可以使用BCE损失,通过最大化重构矩阵与原始矩阵的相似性进行学习, 如:GAE[4]就是网络重构的典型示例,将是否有连边作为正负样本,最大化原始图与重构图的相似度。

由于特征生成与结构生成的学习目标不同,因此在设计编解码器和损失函数上也存在差别,同时最终的学习结果上也会有所不同, 比如:特征生成更关注的是节点级的知识,而网络生成则更偏

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值