影响知识图谱构建的参数有哪些？

立即解锁

发布时间: 2025-08-21 02:17:59 阅读量: 2 订阅数: 16

迈向有意义的互联网系统的移动

### 影响知识图谱构建的参数有哪些？ #### 1. 引言随着数据生成和摄取技术的进步，公开可用数据的规模在过去十年中呈指数级增长，预计未来几年增长速度会更快。为了从现有数据集中提取价值，人们提出了多种数据集成方法。语义网社区也提出了各种方法，将不同格式的数据集成到知识图谱中。知识图谱包含数据以及描述集成数据主要特征的知识，采用基于图的数据模型，如RDF。为了将表格或嵌套格式（如CSV、关系型、JSON和XML）的结构化数据转换为RDF知识图谱，人们提出了多种映射语言，如RDF映射语言（RML）、R2RDF、xR2RML和R2RML，以及KARMA、SPARQL - Generate和DIG等工具。然而，由于缺乏测试平台，社区无法对现有的知识图谱创建工具进行公平评估，也难以全面了解现有技术的优缺点，以及明确该领域的发展方向。我们的目标是研究知识图谱的创建过程，分析可能影响RDFizer（根据RDF映射语言（RML）中指定的映射规则将（半）结构化数据转换为RDF的工具）性能的各种变量和配置。我们研究的相关参数包括映射规则之间连接的选择性、关系类型和重复数据的百分比。我们的方法是设计一组参与知识图谱构建过程的参数，并通过实证展示它们如何影响两个现有的RDFizer：RMLMapper和SDM - RDFizer。我们开发了一个合成数据生成器，用于生成考虑了所确定参数的（半）结构化数据和RML映射规则。我们的主要贡献包括定义了在创建测试平台或评估知识图谱构建工具时需要考虑的各种维度和变量集；对变量和配置对知识图谱创建任务的影响进行了实证评估；通过实验研究结果，有助于理解所研究的RDFizer的优缺点，并为开发能够扩展到现实场景的工具指明方向。 #### 2. 动机示例我们通过分析不同场景来激发研究兴趣，在这些场景中，改变用于实证评估RMLMapper和SDM - RDFizer的测试平台配置可能会影响它们的性能。我们旨在强调在定义测试平台时考虑不同参数的重要性。首先，我们描述了一个场景，在比较SDM - RDFizer和RMLMapper时，仅考虑简单参数（大小和格式）可能会导致错误决策。测试平台包含一个有一千行的数据源、RML三元映射中不同数量的谓词 - 对象映射（POM）以及三元映射连接的不同选择性配置。 RML用于将（半）结构化格式（如CSV或XML）的源数据转换为RDF。每个RML映射规则（称为RML三元映射）由以下部分组成： - 逻辑源：指从中收集数据的数据源。 - 主题映射：定义生成的RDF三元组的主题。 - 谓词 - 对象映射（POM）：表示要生成的RDF三元组的谓词和对象；一个三元映射可以包含多个POM。 - 引用对象映射：指示到另一个三元映射的引用或连接条件；被引用三元映射的主题URL对应于连接评估的结果。 ##### 2.1 映射规则中谓词和对象数量的影响在这个示例中，我们执行了一个测试平台，其中有三种不同配置的RML映射规则：Two - POM、Five - POM和Ten - POM，分别对应具有两个、五个和十个谓词 - 对象映射的映射规则。从表1可以看出，当谓词 - 对象映射的数量从两个增加到五个时，两个RDFizer的行为相似。然而，当考虑具有更多POM的更复杂映射规则时，SDM - RDFizer和RMLMapper的行为受到的影响不同。结果表明，RMLMapper的执行时间随着POM数量的增加而增加，而SDM - RDFizer似乎受影响较小。 | 引擎 | 执行时间（秒） | 结果数量 | | --- | --- | --- | | Two POM - RMLMapper | 0.92 | 2,000 | | Two POM - SDM - RDFizer | 1.72 | 2,000 | | Five POM - RMLMapper | 1.84 | 5,000 | | Five POM - SDM - RDFizer | 1.85 | 5,000 | | Ten POM - RMLMapper | 3.36 | 10,000 | | Ten POM - SDM - RDFizer | 1.98 | 10,000 | ##### 2.2 连接选择性的影响我们考虑了两个RML映射规则之间引用对象映射中连接的选择性，即从外部表到内部表匹配值的基数。连接选择性分为高选择性、中选择性和低选择性。从表2可以看出，RMLMapper的执行时间随着选择性的降低而增加约8秒，而SDM - RDFizer的行为受连接条件选择性的影响较小。SDM - RDFizer的执行时间从高选择性到中选择性增加了0.04秒（从2.16秒到2.20秒），从中选择性到低选择性减少了0.01秒（从2.20秒到2.19秒）。而RMLMapper的执行时间从高选择性到中选择性增加了1.83秒（从38.6秒到40.43秒），从中选择性到低选择性增加了5.63秒（从40.43秒到46.06秒）。 | 引擎 | 执行时间（秒） | 结果数量 | | --- | --- | --- | | 高选择性 - RMLMapper | 38.6 | 2,100 | | 高选择性 - SDM - RDFizer | 2.16 | 2,100 | | 中选择性 - RMLMapper | 40.43 | 23,000 | | 中选择性 - SDM - RDFizer | 2.20 | 23,000 | | 低选择性 - RMLMapper | 46.06 | 30,000 | | 低选择性 - SDM - RDFizer | 2.19 | 30,000 | 研究的RDFizer的不相关行为清楚地表明，在定义测试平台时需要考虑各种变量和配置，以揭示这些引擎的特性。 #### 3. 测试平台设计的相关参数在实证研究中，我们考虑两组变量：独立变量和观测变量。独立变量是在基准测试中需要指定的特征，以确保评估的可重复性，它们分为五个维度：映射、数据、平台、源和输出。观测变量是在测试平台评估期间测量的特征，可能受独立变量的影响，包括执行时间（又分为生成第一个三元组的时间和生成知识图谱所有三元组所需的总执行时间）和完整性（返回的三元组数量与根据数据和输入映射应创建的所有RDF三元组数量的比例）。 | 独立变量 | 观测变量 | | | --- | --- | --- | | | 执行时间 | 完整性 | | 映射 - 映射顺序 | ✓ | | |

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

影响知识图谱构建的参数有哪些？

相关推荐

专栏目录

影响知识图谱构建的参数有哪些？

相关推荐

知识图谱数据集FB15K

基于本体引导的注塑知识图谱构建及缺陷溯因应用.docx

Python实现的知识图谱推荐算法CKE源码及项目资料与数据集

影响知识图谱构建的参数解析

构建知识图谱新技术：CRF模型在知识图谱构建中的应用

【知识图谱构建秘籍】：打造高效知识图谱的策略与方法

知识图谱构建手册：NLP中的构建与应用策略

【知识图谱构建】：自然语言处理的新篇章——R085与知识图谱

词向量表示方法在知识图谱构建中的应用

Word2Vec模型在知识图谱构建中的作用

第一章：C语言常见概念

网络安全基于内容的网页恶意代码检测技术研究与实现：轻量级混合检测系统的开发与优化（论文复现含详细代码及解释）

专栏目录

最新推荐

【Shopee上架工具市场调研指南】：市场需求评估与产品迭代指导

ESP8266小电视性能测试与调优秘籍：稳定运行的关键步骤（专家版）

【管理策略探讨】：掌握ISO 8608标准在路面不平度控制中的关键

英语学习工具开发总结：C#实现功能与性能的平衡

【Swing资源管理】：避免内存泄漏的实用技巧

SSD加密技术：确保数据安全的关键实现

STM32H743IIT6单片机与AT070TN83接口调试

一步到位解决富士施乐S2220打印机驱动难题：全面安装与优化指南

【STM32f107vc多线程网络应用】：多线程应用的实现与管理之道

【智能调度系统的构建】：基于矢量数据的地铁调度优化方案，效率提升50%