影响知识图谱构建的参数有哪些?
立即解锁
发布时间: 2025-08-21 02:17:59 阅读量: 2 订阅数: 16 


迈向有意义的互联网系统的移动
### 影响知识图谱构建的参数有哪些?
#### 1. 引言
随着数据生成和摄取技术的进步,公开可用数据的规模在过去十年中呈指数级增长,预计未来几年增长速度会更快。为了从现有数据集中提取价值,人们提出了多种数据集成方法。语义网社区也提出了各种方法,将不同格式的数据集成到知识图谱中。知识图谱包含数据以及描述集成数据主要特征的知识,采用基于图的数据模型,如RDF。
为了将表格或嵌套格式(如CSV、关系型、JSON和XML)的结构化数据转换为RDF知识图谱,人们提出了多种映射语言,如RDF映射语言(RML)、R2RDF、xR2RML和R2RML,以及KARMA、SPARQL - Generate和DIG等工具。然而,由于缺乏测试平台,社区无法对现有的知识图谱创建工具进行公平评估,也难以全面了解现有技术的优缺点,以及明确该领域的发展方向。
我们的目标是研究知识图谱的创建过程,分析可能影响RDFizer(根据RDF映射语言(RML)中指定的映射规则将(半)结构化数据转换为RDF的工具)性能的各种变量和配置。我们研究的相关参数包括映射规则之间连接的选择性、关系类型和重复数据的百分比。
我们的方法是设计一组参与知识图谱构建过程的参数,并通过实证展示它们如何影响两个现有的RDFizer:RMLMapper和SDM - RDFizer。我们开发了一个合成数据生成器,用于生成考虑了所确定参数的(半)结构化数据和RML映射规则。
我们的主要贡献包括定义了在创建测试平台或评估知识图谱构建工具时需要考虑的各种维度和变量集;对变量和配置对知识图谱创建任务的影响进行了实证评估;通过实验研究结果,有助于理解所研究的RDFizer的优缺点,并为开发能够扩展到现实场景的工具指明方向。
#### 2. 动机示例
我们通过分析不同场景来激发研究兴趣,在这些场景中,改变用于实证评估RMLMapper和SDM - RDFizer的测试平台配置可能会影响它们的性能。我们旨在强调在定义测试平台时考虑不同参数的重要性。
首先,我们描述了一个场景,在比较SDM - RDFizer和RMLMapper时,仅考虑简单参数(大小和格式)可能会导致错误决策。测试平台包含一个有一千行的数据源、RML三元映射中不同数量的谓词 - 对象映射(POM)以及三元映射连接的不同选择性配置。
RML用于将(半)结构化格式(如CSV或XML)的源数据转换为RDF。每个RML映射规则(称为RML三元映射)由以下部分组成:
- 逻辑源:指从中收集数据的数据源。
- 主题映射:定义生成的RDF三元组的主题。
- 谓词 - 对象映射(POM):表示要生成的RDF三元组的谓词和对象;一个三元映射可以包含多个POM。
- 引用对象映射:指示到另一个三元映射的引用或连接条件;被引用三元映射的主题URL对应于连接评估的结果。
##### 2.1 映射规则中谓词和对象数量的影响
在这个示例中,我们执行了一个测试平台,其中有三种不同配置的RML映射规则:Two - POM、Five - POM和Ten - POM,分别对应具有两个、五个和十个谓词 - 对象映射的映射规则。从表1可以看出,当谓词 - 对象映射的数量从两个增加到五个时,两个RDFizer的行为相似。然而,当考虑具有更多POM的更复杂映射规则时,SDM - RDFizer和RMLMapper的行为受到的影响不同。结果表明,RMLMapper的执行时间随着POM数量的增加而增加,而SDM - RDFizer似乎受影响较小。
| 引擎 | 执行时间(秒) | 结果数量 |
| --- | --- | --- |
| Two POM - RMLMapper | 0.92 | 2,000 |
| Two POM - SDM - RDFizer | 1.72 | 2,000 |
| Five POM - RMLMapper | 1.84 | 5,000 |
| Five POM - SDM - RDFizer | 1.85 | 5,000 |
| Ten POM - RMLMapper | 3.36 | 10,000 |
| Ten POM - SDM - RDFizer | 1.98 | 10,000 |
##### 2.2 连接选择性的影响
我们考虑了两个RML映射规则之间引用对象映射中连接的选择性,即从外部表到内部表匹配值的基数。连接选择性分为高选择性、中选择性和低选择性。从表2可以看出,RMLMapper的执行时间随着选择性的降低而增加约8秒,而SDM - RDFizer的行为受连接条件选择性的影响较小。SDM - RDFizer的执行时间从高选择性到中选择性增加了0.04秒(从2.16秒到2.20秒),从中选择性到低选择性减少了0.01秒(从2.20秒到2.19秒)。而RMLMapper的执行时间从高选择性到中选择性增加了1.83秒(从38.6秒到40.43秒),从中选择性到低选择性增加了5.63秒(从40.43秒到46.06秒)。
| 引擎 | 执行时间(秒) | 结果数量 |
| --- | --- | --- |
| 高选择性 - RMLMapper | 38.6 | 2,100 |
| 高选择性 - SDM - RDFizer | 2.16 | 2,100 |
| 中选择性 - RMLMapper | 40.43 | 23,000 |
| 中选择性 - SDM - RDFizer | 2.20 | 23,000 |
| 低选择性 - RMLMapper | 46.06 | 30,000 |
| 低选择性 - SDM - RDFizer | 2.19 | 30,000 |
研究的RDFizer的不相关行为清楚地表明,在定义测试平台时需要考虑各种变量和配置,以揭示这些引擎的特性。
#### 3. 测试平台设计的相关参数
在实证研究中,我们考虑两组变量:独立变量和观测变量。独立变量是在基准测试中需要指定的特征,以确保评估的可重复性,它们分为五个维度:映射、数据、平台、源和输出。观测变量是在测试平台评估期间测量的特征,可能受独立变量的影响,包括执行时间(又分为生成第一个三元组的时间和生成知识图谱所有三元组所需的总执行时间)和完整性(返回的三元组数量与根据数据和输入映射应创建的所有RDF三元组数量的比例)。
| 独立变量 | 观测变量 | |
| --- | --- | --- |
| | 执行时间 | 完整性 |
| 映射 - 映射顺序 | ✓ | |
|
0
0
复制全文
相关推荐










