知识图谱上的近似子图匹配
1. 引言
随着移动互联网的飞速发展,数据量呈指数级增长,数据内容也变得更加复杂。人们很难从海量数据中筛选出有用信息。当用户的目标是一个对象组合而非单个对象时,问题会变得更加棘手,因为用户需要全面考虑不同数据之间的关系。
1.1 实际应用场景
- 基于事件的移动社交网络 :用户通常会根据位置、营业时间等因素选择对象组合,如商店、体育活动和电影院。例如,Peter 面临 Meetup 推荐的四个冲突体育活动,他只能选择参加其中几个,需要做出决策来选择一个对象组合。
- 网络攻击防御系统 :系统需要处理大量 IP 地址产生的数据包,识别恶意网络攻击和攻击模式。攻击模式通常很复杂,复合攻击往往涉及多个攻击步骤,可以用图结构来表示攻击者和主机之间的关系。
1.2 知识图谱的引入
与简单图结构相比,上述例子非常复杂,因为每个节点都需要关联许多信息。因此,引入了知识图谱(KG)。KG 是一种异构图,节点作为实体,边表示实体之间的关系。物品及其属性可以映射到 KG 中,以理解物品之间的相互关系。此外,用户和用户侧信息也可以集成到 KG 中,使用户能够准确捕捉用户和物品之间的关系。
1.3 研究问题与贡献
本文研究大规模知识图谱上的子图匹配问题,这是一个 NP 难问题。为了解决这个问题,提出了一个近似框架 CBSM(基于压缩的子图匹配)。具体贡献如下:
- 提出知识图谱压缩算法 :首先计算所有边的权重,然后根据计算