作者受到谱图卷积的局部一阶近似的启发, 提出一种可扩展的图卷积网络, 可用于具有图结构数据的半监督学习.
论文链接: https://arxiv.org/abs/1609.02907v4
相关工作
本文考虑节点分类的半监督问题, 即所有节点中只有一部分的标签是已知的. (Zhu et al., 2003; Zhou et al., 2004; Belkin et al.,2006; Weston et al., 2012) 等提出的方法, 标签信息通过某种显式的正则化基于图的正则化项来表达, 并且标签 信息是连续的. 例如在损失函数中使用一个图拉普拉斯正则化项:
L
=
L
0
+
λ
L
r
e
g
,
with
L
r
e
g
=
∑
i
,
j
A
i
j
∥
f
(
X
i
)
−
f
(
X
j
)
∥
2
=
f
(
X
)
⊤
Δ
f
(
X
)
\mathcal{L}=\mathcal{L}_{0}+\lambda \mathcal{L}_{\mathrm{reg}}, \quad \text { with } \quad \mathcal{L}_{\mathrm{reg}}=\sum_{i, j} A_{i j}\left\|f\left(X_{i}\right)-f\left(X_{j}\right)\right\|^{2}=f(X)^{\top} \Delta f(X)
L=L0+λLreg, with Lreg=i,j∑Aij∥f(Xi)−f(Xj)∥2=f(X)⊤Δf(X)
具体解释请参考原文. 作者指出, 这个损失函数依赖于一个假设, 即图中相连接的节点差不多具有相同的标签. 此假设可能会限制模型的表达能力, 因为图的边不一定需要编码点之间的相似性, 而可能包含其他信息.
本文的的方法基于 Bruna et al. (2014) 提出的谱图卷积神经网络. 后来由 Defferrard et al. (2016) 扩展为快速局部卷积. 与这些工作不同的是本文考虑在大规模网络节点的分类任务.
本文方法
本文提出一种多层的图卷积网络 (GCN), 按层的传播法则如下:
H
(
l
+
1
)
=
σ
(
D
~
−
1
2
A
~
D
~
−
1
2
H
(
l
)
W
(
l
)
)
,
H^{(l+1)}=\sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right),
H(l+1)=σ(D~−21A~D~−21H(l)W(l)),
其中
A
~
=
A
+
I
N
\tilde{A}=A+I_{N}
A~=A+IN 是无向图
G
\mathcal{G}
G 的带有自连接的邻接矩阵,
D
~
i
i
=
∑
j
A
~
i
j
\tilde{D}_{i i}=\sum_{j} \tilde{A}_{i j}
D~ii=∑jA~ij 是节点的度,
W
(
l
)
W^{(l)}
W(l) 是可训练的权重矩阵,
σ
\sigma
σ 是激活函数.
下面考虑半监督学习的情形. 在训练之前, 可以先计算出
A
^
=
D
~
−
1
2
A
~
D
~
−
1
2
\hat{A}=\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}}
A^=D~−21A~D~−21, 于是一个两层的模型可以表达为
Z
=
f
(
X
,
A
)
=
softmax
(
A
^
ReLU
(
A
^
X
W
(
0
)
)
W
(
1
)
)
.
Z=f(X, A)=\operatorname{softmax}\left(\hat{A} \operatorname{ReLU}\left(\hat{A} X W^{(0)}\right) W^{(1)}\right).
Z=f(X,A)=softmax(A^ReLU(A^XW(0))W(1)).
输入层权重矩阵
W
(
0
)
∈
R
C
×
H
W^{(0)} \in \mathbb{R}^{C \times H}
W(0)∈RC×H, 输出层权重矩阵
W
(
1
)
∈
R
H
×
F
W^{(1)} \in \mathbb{R}^{H \times F}
W(1)∈RH×F.
对于所有带标签的样本, 定义其交叉熵损失函数为
L
=
−
∑
l
∈
Y
L
∑
f
=
1
F
Y
l
f
ln
Z
l
f
.
\mathcal{L}=-\sum_{l \in \mathcal{Y}_{L}} \sum_{f=1}^{F} Y_{l f} \ln Z_{l f}.
L=−l∈YL∑f=1∑FYlflnZlf.
Y
L
\mathcal{Y}_{L}
YL 是所有带标签节点的索引集合,
Y
Y
Y 即是真实标签,
Z
Z
Z 是网络输出. 经过训练后, 便可以得到无标签节点的标签.
参考
Michael Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In Advances in neural information processing systems (NIPS), 2016.