[解读] Semi-Supervised Classification with Graph Convolutional Networks

本文提出一种用于图结构数据半监督学习的可扩展图卷积网络(GCN),基于谱图卷积局部一阶近似,适用于大规模网络节点分类。模型通过调整传播法则,利用图的邻接矩阵和节点特征进行多层传播,最终通过交叉熵损失函数进行优化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者受到谱图卷积的局部一阶近似的启发, 提出一种可扩展的图卷积网络, 可用于具有图结构数据的半监督学习.

论文链接: https://arxiv.org/abs/1609.02907v4

相关工作

本文考虑节点分类的半监督问题, 即所有节点中只有一部分的标签是已知的. (Zhu et al., 2003; Zhou et al., 2004; Belkin et al.,2006; Weston et al., 2012) 等提出的方法, 标签信息通过某种显式的正则化基于图的正则化项来表达, 并且标签 信息是连续的. 例如在损失函数中使用一个图拉普拉斯正则化项:
L = L 0 + λ L r e g ,  with  L r e g = ∑ i , j A i j ∥ f ( X i ) − f ( X j ) ∥ 2 = f ( X ) ⊤ Δ f ( X ) \mathcal{L}=\mathcal{L}_{0}+\lambda \mathcal{L}_{\mathrm{reg}}, \quad \text { with } \quad \mathcal{L}_{\mathrm{reg}}=\sum_{i, j} A_{i j}\left\|f\left(X_{i}\right)-f\left(X_{j}\right)\right\|^{2}=f(X)^{\top} \Delta f(X) L=L0+λLreg, with Lreg=i,jAijf(Xi)f(Xj)2=f(X)Δf(X)
具体解释请参考原文. 作者指出, 这个损失函数依赖于一个假设, 即图中相连接的节点差不多具有相同的标签. 此假设可能会限制模型的表达能力, 因为图的边不一定需要编码点之间的相似性, 而可能包含其他信息.

本文的的方法基于 Bruna et al. (2014) 提出的谱图卷积神经网络. 后来由 Defferrard et al. (2016) 扩展为快速局部卷积. 与这些工作不同的是本文考虑在大规模网络节点的分类任务.

本文方法

本文提出一种多层的图卷积网络 (GCN), 按层的传播法则如下:
H ( l + 1 ) = σ ( D ~ − 1 2 A ~ D ~ − 1 2 H ( l ) W ( l ) ) , H^{(l+1)}=\sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right), H(l+1)=σ(D~21A~D~21H(l)W(l)),
其中 A ~ = A + I N \tilde{A}=A+I_{N} A~=A+IN 是无向图 G \mathcal{G} G 的带有自连接的邻接矩阵, D ~ i i = ∑ j A ~ i j \tilde{D}_{i i}=\sum_{j} \tilde{A}_{i j} D~ii=jA~ij 是节点的度, W ( l ) W^{(l)} W(l) 是可训练的权重矩阵, σ \sigma σ 是激活函数.

下面考虑半监督学习的情形. 在训练之前, 可以先计算出 A ^ = D ~ − 1 2 A ~ D ~ − 1 2 \hat{A}=\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} A^=D~21A~D~21, 于是一个两层的模型可以表达为
Z = f ( X , A ) = softmax ⁡ ( A ^ ReLU ⁡ ( A ^ X W ( 0 ) ) W ( 1 ) ) . Z=f(X, A)=\operatorname{softmax}\left(\hat{A} \operatorname{ReLU}\left(\hat{A} X W^{(0)}\right) W^{(1)}\right). Z=f(X,A)=softmax(A^ReLU(A^XW(0))W(1)).
输入层权重矩阵 W ( 0 ) ∈ R C × H W^{(0)} \in \mathbb{R}^{C \times H} W(0)RC×H, 输出层权重矩阵 W ( 1 ) ∈ R H × F W^{(1)} \in \mathbb{R}^{H \times F} W(1)RH×F.

对于所有带标签的样本, 定义其交叉熵损失函数为
L = − ∑ l ∈ Y L ∑ f = 1 F Y l f ln ⁡ Z l f . \mathcal{L}=-\sum_{l \in \mathcal{Y}_{L}} \sum_{f=1}^{F} Y_{l f} \ln Z_{l f}. L=lYLf=1FYlflnZlf.
Y L \mathcal{Y}_{L} YL 是所有带标签节点的索引集合, Y Y Y 即是真实标签, Z Z Z 是网络输出. 经过训练后, 便可以得到无标签节点的标签.

参考

Michael Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In Advances in neural information processing systems (NIPS), 2016.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值