LINE基本思想
LINE: Large-scale Information Network Embedding与DeepWalk相似都是基于领域相似假设的方法,DeepWalk是基于深度优先搜索,LINE是基于广度优先搜索。LINE还可以应用在带权图中(DeepWalk仅能用于无权图)。不同graph embedding方法之间的一个主要区别是图中顶点之间的相似度的定义不同,在LINE中有两种相似度的定义方法。
如下图:
图中的边可以是有向的也可以是无向的,或者是带权边。顶点6和顶点7之间的边权重较重,他们在低维空间内的表示向量应该是相似的。但当两个顶点之间不存在边时,如顶点5和顶点6,并不能说二者之间没有关系,因为顶点5和顶点6具有相同的邻接顶点(顶点1,2,3,4)。这就是LINE的两种相似度的基本思想。
LINE是基于顶点之间的相似度进行建模,第一步将顶点Embedding到指定维度,利用Embedding的表示向量计算顶点A与顶点B之间的相似度,让相似度去拟合顶点A,B 之间的边的权重,得到最优的顶点的嵌入向量。
一阶相似度
一阶相似度用于描述图中成对顶点之间的局部相似度,即只有当边与边之间存在连接时,顶点之间才有相似度,相似度与边之间的权重成正比,图中的顶点6,7 权重较大,相似度为1。顶点5和顶点6之间不存在边,相似度为0。
优化目标
假设用 u i , u j u_i,u_j ui,uj作为节点的低维向量表示,对于每一条无向边 ( i , j ) (i,j) (i,j),顶点 u i , u j u_i,u_j ui,uj之间的联合概率密度为:
p 1 ( v i , v j ) = 1 1 + e x p ( − u i T ⋅ u j ) p_1(v_i,v_j) = \frac{1}{1+exp(-u_i^T \cdot u_j)} p1(vi,vj)=1+exp(−uiT⋅uj)1
若两个向量相似,则 p ( v i , v j ) p(v_i,v_j) p(vi,vj)也较大。
同时,两节点之间的经验概率如下:
p ^ 1 ( i , j ) = w i j W W = ∑ ( i , j ) ∈ E w i j \hat p_1(i,j) = \frac{w_{ij}}{W} \\ W = \sum_{(i,j) \in E} w_{ij} p^1(i,j)=WwijW=(i,j)∈E∑wi