迈向用于电子科学应用的大规模科学数据空间
立即解锁
发布时间: 2025-08-23 01:00:22 阅读量: 2 订阅数: 8 

### 迈向用于电子科学应用的大规模科学数据空间
#### 1. 引言
数据空间并非数据集成方法,而是数据共存方法,旨在提升数据管理的抽象层次。它由参与者和关系构成,参与者可以是任何数据元素,关系则用于建模这些参与者之间的相互连接。数据空间支持平台(DSSPs)是控制数据空间中数据组织、存储和检索的软件和服务集合。
科学数据管理社区面临的一个重大挑战是有效组织不同电子科学应用的科学实验中使用和产生的数据产品,即数据溯源。与主流数据空间研究不同,科学数据空间可以看作是解决这些研究挑战的综合方案,目标是建立一个分布式的大规模科学存储库,妥善保存科学数据的完整生命周期。
医学中的呼吸气体分析是一个新兴的科学领域,为数据空间提供了具体的用例。呼吸气体研究涉及多个实验,需要为这些实验提供结构化表示。电子科学生命周期本体利用资源描述框架(RDF)和基于形式逻辑的OWL语言,精确描述科学实验,这些实验被称为生命周期资源(LCRs)。LCR代表了数据空间参与者之间的语义关系,参与者分为三类:
- 主要数据:用于调查的数据来源。
- 衍生数据:相应的研究结果。
- 背景数据:定义具体预处理和分析方法的活动集合。
本文将讨论基于语义Web技术的科学数据空间系统jSpace的实现,它是数据空间范式的进一步发展,也是呼吸气体分析研究社区成员协作的关键。
#### 2. 相关系统
Franklin等人引入的数据空间概念带来了新的数据管理挑战,许多数据空间研究应用于个人信息管理。例如:
- **OrientSpace**:由Yukun等人描述,实现了数据集成和查询功能,引入了CoreSpace框架,使用基于垂直数据模型的数据模型。
- **iMeMex**:提供查询、更新、备份和恢复等数据管理功能,使用单一图数据模型和自己的查询语言iQL,核心是资源视图层,通过数据源代理连接数据源。
- **Galaxy数据模型**:由Lei等人提出,是iMeMex数据模型的扩展,更好地考虑了安全问题,主要是访问策略。
此外,数据空间的发起者还提出了解决数据空间研究挑战的方案,如数据空间索引和按需付费的数据集成方法,但目前尚未有将数据空间概念应用于电子科学应用以建立大规模科学存储库的努力。
#### 3. jSpace架构
jSpace的主要实体包括:
- 生命周期编辑器:用于创建LCRs。
- RDF存储:用于存储这些资源。
- 科学数据空间:用于存储参与的数据集合。
- 数据空间索引器:用于订阅。
- 搜索和查询处理器:允许科学家查找LCRs。
- 数据空间浏览器:用于探索数据空间。
这些相互协作的软件程序构成了科学数据空间能够发展和演化的环境,提供了数据空间内科学数据的组织和检索功能。
##### 3.1 电子科学生命周期编辑器
其目的是为科学家提供一个简单的界面,根据科学社区定义的预定义属性描述他们的实验。它引导用户完成五个电子科学生命周期活动,创建新个体并将其附加到新的LCR中。在实验执行过程中,科学家根据部署数据空间的电子科学应用领域负责人定义的指南,填写一些必填字段,并记录实验中使用的数据集的引用。输入的信息用于创建电子科学生命周期本体定义的类的个体,这些个体整合在LCR中,从语义层面描述科学实验,生成的RDF图表示LCR并保存到RDF存储中。
##### 3.2 RDF存储
RDF存储持久管理LCRs,使用SPARQL查询语言查询LCRs。在多个研究中心协作的场景中,每个中心会有自己的RDF存储,形成分布式RDF数据环境。处理多个RDF存储有两种主要方法:
| 方法 | 描述 |
| ---- | ---- |
| 全局集中式RDF存储 | 类似数据仓库的方法,提供一个全局集中的RDF存储,用于在多机构层面组织LCRs。本地存储保证本地人员的高性能访问,只有当研究人员希望与外部合作者共享实验或向科学界公开时,相应的LCR才会存储在中央全局存储中。 |
| 分布式RDF存储 | 需要支持联合SPARQL查询处理的中间件,通过查询中介将子查询分发到本地RDF存储并整合结果。如DARQ引擎、SemWIQ系统和DAI - RDF等。 |
两种方法都可行,也可以采用混合方法,具体取决于数据空间基础设施的规模和参与机构的法律问题等因素。
##### 3.3 科学数据空间
数据空间关系存储在RDF存储中,而参与者则组织在多个可能地理分布的异构数
0
0
复制全文
相关推荐









