参考协调的图形化方法
1. 引言
在当今的许多工作中,需要将来自异构数据源的信息集成到一个数据库中。这可能会导致出现相似的引用,其中一些可能原本就存在于某个数据源中,而另一些则可能是由多个数据源的集成产生的。在数据库能够有效地用于进一步处理之前,那些可能指向同一个真实实体的相似引用必须进行协调。
参考协调旨在将可能指向相同真实实体的相似引用进行协调和分组,形成一个个簇,使得每个簇对应一个真实实体。它与实体解析、记录链接、重复检测、对象合并等问题相关。传统方法通常利用文本相似度或属性值相似度,也有一些方法使用引用之间的关系信息,但大多数仅考虑记录内属性之间的关系。
本文提出了一种新的参考协调算法,该算法利用记录级关系来计算图中引用的关联相似度值,然后将这种相似度与传统的属性值相似度相结合,并使用聚类算法对最接近的引用进行分组。该算法具有诸多优点,例如结合了多个属性级关系,还能提高单关系中参考协调的性能。
2. 问题描述
在现实世界中,许多数据集只包含单一关系,例如在作者匹配问题中的 DBLP 和 Cora 数据集。以一个关系的数据片段为例:
| 记录 | 数据 |
| ---- | ---- |
| P1 | |
| P2 | |
| P3 | |
| P4 | |
该关系的模式为 。可以注意到,在这个数据片段中有几个相似的作者姓名可能指向同一个真实实体,如 P1 中的 ‘Ekkart Rudolph’、P2 中的 ‘E. Rudolph’ 和 P3 中的 ‘E. R’。参考协调算法的目标是将所有这些引用分组到簇中,使得每个簇仅对应一个真实实体。