Nonnegative Matrix Factorization Based on Node Centrality for Community Detection 论文笔记

本文介绍了针对社区检测的非负矩阵分解方法——NCNMF,该方法结合了节点中心度和基尼不纯度,提出了一种新的相似性度量h阶加权Jaccard,通过考虑高阶邻居信息提高了社区检测的准确性。实验结果显示,NCNMF在多个数据集上表现出优越性能,验证了其有效性。

导语:自用的论文笔记

Su S, Guan J, Chen B, et al. Nonnegative Matrix Factorization Based on Node Centrality for Community Detection[J]. ACM Transactions on Knowledge Discovery from Data, 2023, 17(6): 1-21.

一、摘要

研究背景:社区检测是网络分析中的一个重要话题。近年来,在非负矩阵分解(NMF)技术的基础上,发展了许多社区检测方法。大多数基于NMF的社区发现方法只利用邻接矩阵中的一阶邻近信息,存在一定的局限性。此外,许多基于NMF的社区检测方法涉及稀疏正则化,以促进更清晰的社区成员。然而,在大多数正则化中,不同的节点被平等对待,这似乎是不合理的。

本文贡献:针对上述局限性,本文在NMF框架下提出了一种基于节点中心度的社区发现方法。具体来说,我们设计了一种新的相似性度量,它考虑了高阶邻居的接近程度,形成了一种更具信息量的图正则化机制,从而更好地细化检测到的社区。此外,我们引入节点中心度和基尼不纯度来分别衡量节点的重要性和社区成员的稀疏性。然后,我们提出了一种新的稀疏正则化机制,迫使具有较高节点中心性的节点具有较小的基尼杂质。

二、文章创新点

(1)我们提出了一种新的相似性度量,即h阶加权Jaccard,并使用它作为一个重要的成分来正则化检测到的社区。好的一面是,我们提出的h阶加权Jaccard包含更多的信息,高阶邻居比现有的局部相似性措施,这是很好的社区检测。

(2)我们利用节点中心性和基尼不纯性形成一种社区正则化机制,使得中心性较高的节点的社区成员关系变得稀疏。通过降低具有低节点中心性的节点的重要性并增加具有高节点中心性的节点的重要性,可以更有效地进行针对社区检测的非负矩阵分解过程。

(3)我们提出了一种新的NCNMF社区检测方法,它利用新提出的相似性度量和稀疏正则化机制下的NMF框架。

(4)我们推导出一个有效的优化算法的基础上,理论上保证收敛的梯度下降法求解NCNMF。此外,整个社区检测过程的计算复杂度进行了分析。它的规模与网络中的节点数,这是相同的许多现有的NMF为基础的算法,从而保证其效率的立方。

(5)我们在8个真实世界的基准网络上进行了广泛的实验,以测试NCNMF,并与13种最先进的社区检测方法进行比较。实验结果不仅表明了NCNMF的巨大优越性,而且表明NCNMF在有效性和效率之间取得了很好的平衡。此外,我们验证了理论分析,并进行敏感性分析。

三、本文模型

1.准备工作

介绍本文中使用的主要符号和术语。然后,我们提出了几个现有的相似性度量,the symmetric NMF model, and the homophily-preserving NMF model。

1、符号(Notations)

2、相似度量(Similarity Measures)

分为局部相似性和全局相似性。(local similarity measures and global similarity measures.)

局部相似性:朴素相似性测度[44](the naive similarity measure)、共同邻居测度[27](the Common Neighbor measure)、余弦测度[49](the Cosine measure )和Jaccard测度[49](the Jaccard measure),等等。

由于余弦度量基本上用于计算文档相似度。由于Jaccard测度是Common Neighbor测度的增强版本,研究人员现在基本上使用Jaccard测度而不是Common Neighbor测度来计算节点相似性。接下来,我们只关注朴素相似性度量和Jaccard相似性度量。

(1)the naive similarity measure:等价于邻接矩阵。即,节点与节点有边时值为1,否则值为0。定义如下:

(2)the Jaccard measure。利用相邻节点集来计算相似度。它被定义为交集的大小除以两个节点的邻居集Γ(vi)和Γ(vj)的并集的大小。定义如下:

局部相似性度量有两个主要优点。一个是它们提供了一种直观的方法来表征节点相似性。二是计算方便,耗时少。然而,局部相似性度量的缺点也是显而易见的。它们只考虑了直接连接的邻居对相似性计算的影响,忽略了许多有用的信息,例

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值