语义数据湖中的个性化探索图:实现智能城市数据的个性化探索
立即解锁
发布时间: 2025-08-21 02:17:17 阅读量: 2 订阅数: 16 


迈向有意义的互联网系统的移动
### 语义数据湖中的个性化探索图:实现智能城市数据的个性化探索
在智能城市的发展进程中,数据的有效利用和个性化探索变得至关重要。本文将介绍一种基于语义的数据湖探索方法,通过构建个性化探索图,为不同用户提供定制化的数据探索体验。
#### 1. 用户档案
用户档案 `p(u)` 可以通过元组 `⟨IDu, catu, Cl, Il⟩` 进行抽象,各部分含义如下:
- `IDu`:用户的唯一标识符。
- `catu`:代表用户类别的概念,即用户在智能城市中的角色。
- `Cl`:一组维度级别概念约束,用于限制用户可访问的维度级别。
- `Il`:一组维度级别实例,在探索时使用。
用户档案数据存储在数据库中,在个性化图提取过程中,除了 `Il` 集合外,`p(u)` 中的所有元素都会被使用。具体来说,`catu` 用于从智能城市探索图中检索符合用户角色的活动概念,进而确定参与该活动的指标概念。`Cl` 集合中的概念作为约束,确保数据隐私,例如允许建筑经理仅查看建筑级别的数据。
当用户通过图形用户界面(GUI)注册时,注册向导会根据用户类别提示用户插入 `Cl` 概念引用和 `Il` 实例引用,这些引用将由第三方权威机构进行验证,以确保用户仅能探索其明确授权的维度级别和其管辖范围内的建筑数据。
#### 2. 个性化图推导过程
从智能城市探索图中,可以根据用户档案推导出不同的个性化图。提取过程可概括为以下两个步骤:
1. **基于活动的指标概念选择**:用户根据自己的角色选择要执行的活动,从智能城市探索图中识别并检索参与该活动的候选指标概念(及相关语义知识)。
2. **基于级别的维度修剪**:使用 `Cl` 集合中专门化 `MDO Level` 概念的概念,将维度组织级别概念的可见性限制在用户允许访问的级别。
下面以一个具体示例详细说明每个步骤:
假设 John 是一名建筑管理员,他选择了 `BuildingMonitoring` 活动。该活动涉及多个指标,其中 `EC Building` 是一个复合指标,通过 `takesDataFrom` 关系与 `EC Stairs`、`EC Gardens` 和 `EC Elevators` 相关联。在这个过程中,会从智能城市探索图中检索这些指标的相关语义特征,包括维度组织、公式、聚合函数等。
John 的档案数据中,`Cl` 集合包含 `{City, District, Building}` 概念,这些元素通过 `rollUp` 链连接,定义了维度级别导航路径。通过这种方式,实现了基于级别的维度修剪,确保 John 只能访问其授权范围内的维度级别数据。
以下是个性化图推导过程的 mermaid 流程图:
```mermaid
graph LR
A[用户选择活动] --> B[基于活动选择指标概念]
B --> C[获取指标相关语义知识]
D[用户档案中的 Cl 集合] --> E[基于级别进行维度修剪]
C --> F[生成个性化图]
E --> F
```
#### 3. 个性化图探索
在个性化图中,可以从不同角度进行探索,包括:
- **探索执行活动中涉及的指标**:用户执行的活动(如 `BuildingMonitoring`)涉及一个或多个待检查的指标,例如与能源和水消耗相关的指标。为了清晰起见,我们主要关注 `EC Building` 及其相关指标。
- **探索指标依赖关系**:用户选择一个指标(如 `EC Building`),通过 `takesDataFrom` 语义关系深入探索其他相关指标。例如,John 可以选择查看 `EC Elevators` 指标,以评估建筑物电梯的电力消耗。
- **探索指标维度组织**:利用指标与其维度组织之间的语义关系(如 `hasDimension` 和 `hasLevel` 关系),用户可以选择一个维度级别(如 `Building`),并通过 `rollUp` 语义关系更改聚合级别,从而以不同的粒度查看指标值。例如,John 可以选择在地区级别查看 `EC Building` 指标的值,此时会应用与该指标关联的聚合函数(如 `sum`)。
无论采用哪种探索场景,用户都需要从个性化探索图中选择一个指标节点和一个或多个维度级别节点。根据这些选择,`Il` 集合的内容将用于限制与所选级别概念相关的可见实例集。最后,会针对所选指标对应的分析立方体发出查询,以表格形式显示指标实例和所选维度。
以下是个性化图探索的步骤列表:
1. 选择指标节点和维度级别节点。
2. 利用 `Il` 集合限制可见实例集。
3. 发出查询以显示指标实例和所选维度。
#### 4. 初步验证
为了验证该方法的有效性,创建了一个原型实现,重点关注用于完成探索任务的图形用户界面(GUI)。具体来说,构建了一个基于 Web 的仪表板,用于:
- 让用户注册到探索平台,指定 `p(u)` 中的元素。
- 根据用户档案数据生成并探索个性化图。
在原型实现中,收集了包含布雷西亚智能生活项目中能源消耗的数据来源,涉及不同类型的用户,包括对智能城市指标缺乏先验知识的公民、公共管理代表、公用事业和能源供应商等。语义模型、智能城市探索图和为用户提取的个性化图使用 Stardog 三元组存储以 OWL 格式部署。通过 Protégé 图形编辑器支持领域专家和数据分析师定义语义模型和基于 MDO 的指标语义表示。利用知名库实现个性化图的可视化,例如使用 `d3sparql` 库实现动态和交互式可视化。当用户从个性化图中选择指标和维度概念后,通过 OpenCube 工具包以表格形式检查关联的分析立方体。
进行了工作量和性能分析以及可用性测试:
- **工作量和性能分析**:模拟了一个探索性搜索场景,包括三个难度逐渐增加的任务,让用户根据前面介绍的探索方法探索其个性化图。用户接受了 30 分钟的初始培训,以熟悉 GUI 并创建自己的档案。通过让参与者填写 NASA TLX 问卷评估原型的性能,结果显示“心理需求”子量表得分最高,而“性能”得分最低。这表明该方法虽然增加了用户在数据探索过程中的心理和感知活动,但提高了用户完成数据探索的成功率。
- **可用性测试**:在布雷西亚智能生活项目中进行了可用性实验,直到 2019 年底结束。参与者被分配了一个使用探索工具完成的任务,没有时间限制或特定的探索约束。任务是在个性化图中检查与能源和环境领域相关的指标(符合用户档案)。然后,让参与者填写标准的系统可用性量表(SUS)问卷,平均得分达到 87.5,表明该原型的可用性处于 90 - 95 百分位范围。与普通关键字界面相比,参与者使用原型完成任务的时间更短,这减轻了参与者对指标定义的详细了解需求,因为他们可以通过个性化图中的语义关系进行指标探索。
以下是初步验证的总结表格:
| 验证类型 | 方法 | 结果 |
| ---- | ---- | ---- |
| 工作量和性能分析 | 模拟探索场景,使用 NASA TLX 问卷 | “心理需求”得分高,“性能”得分低,提高探索成功率 |
| 可用性测试 | 分配任务,使用 SUS 问卷 | 平均得分 87.5,缩短任务完成时间 |
### 语义数据湖中的个性化探索图:实现智能城市数据的个性化探索
#### 5. 相关工作
在过去的几十年中,语义 Web 技术被广泛应用于整合来自多个异构数据源的数据,以提供统一的数据视图。在数据湖领域,基于本体的数据访问(OBDA)范式的深入研究为语义数据湖的发展奠定了基础,使得异构数据可以通过适当的语义层进行无缝访问和查询。
语义在数据湖方法中的作用是多方面的,不仅限于数据集成。例如,语义丰富技术被用于将数据与外部知识库链接起来,还可以结合概率技术。本体和知识图也被认为是提供底层数据源全面视图、建模其关系和依赖的有效解决方案。一些工具利用语义 Web 功能来回答关于异构数据的按需查询,并在处理大量数据时确保高可扩展性。
然而,这些方法大多没有关注如何利用这些知识实现个性化的数据探索体验,更多地侧重于评估系统的性能。此外,与本文提出的多层方法相比,这些框架中参与者的角色和权限划分不够明确。一些方法虽然涉及数据湖数据源的主题视图,但对个性化方面的处理仅停留在抽象层面,缺乏全面的语义支持。还有一些语义数据平台采用了灵活的数据摄取管道,但对探索方面的关注较少。
在专注于数据湖数据探索任务的方法中,用户通常从图形用户界面(GUI)开始,可以通过关键字搜索或特定的可视化工具进行交互。其他方法则更注重帮助用户熟悉探索界面,考虑用户的交互等待容忍度或实施适当的缓存策略以确保高响应性。数据探索的最终目标是提供合适的工具,以获取与观察数据相关的可操作见解,例如将当前传感器数据与模拟数据进行比较,以预测未来的行为和趋势。
大多数这些方法更侧重于数据的可视化,而不是提出技术来吸引用户关注符合其探索兴趣的数据,并根据用户档案提供有效的探索方向。
以下是相关工作的对比表格:
| 方法 | 关注点 | 个性化支持 | 角色权限划分 | 探索方面关注 |
| ---- | ---- | ---- | ---- | ---- |
| 传统语义 Web 方法 | 数据集成和系统性能 | 缺乏 | 不明确 | 较少 |
| 部分主题视图方法 | 数据源主题视图 | 抽象层面 | 不明确 | 较少 |
| 部分语义数据平台 | 灵活数据摄取 | 较少 | 不明确 | 较少 |
| 专注数据探索方法 | 数据可视化 | 较少 | 不明确 | 侧重于可视化 |
#### 6. 总结与展望
本文介绍的基于语义的数据湖探索方法,通过构建个性化探索图,为不同用户提供了定制化的数据探索体验。该方法分为三个层次:底层通过领域专家使用领域本体定义的语义模型丰富数据湖中的异构数据源;中间层使用多维本体描述指标及其分析维度;顶层为不同用户类别生成个性化探索图,用户档案中的约束条件限制了用户可依赖的指标概念。
通过在智能城市领域的应用,验证了该方法的有效性。原型实现的工作量和性能分析以及可用性测试结果表明,虽然该方法增加了用户的心理需求,但提高了数据探索的成功率,并且具有较高的可用性,能够缩短用户完成任务的时间。
未来的工作将致力于全面实现该方法,详细规划实验步骤并确定支持技术。需要深入研究由于智能城市语义数据湖中大量注释数据可能带来的可扩展性问题,并与其他类似方法进行比较。此外,还将进一步研究用户档案变化对个性化探索图演变的影响,以及这种演变对探索任务的影响。
以下是未来工作的任务列表:
1. 实现方法的全面实施。
2. 规划详细的实验步骤。
3. 研究可扩展性问题并与其他方法比较。
4. 研究用户档案变化对探索图和探索任务的影响。
以下是整个方法的总结 mermaid 流程图:
```mermaid
graph LR
A[异构数据源] --> B[语义模型丰富]
B --> C[多维本体描述指标]
C --> D[生成个性化探索图]
D --> E[个性化图探索]
E --> F[获取可操作见解]
G[用户档案] --> D
H[实验验证] --> I[评估方法有效性]
I --> J[改进和优化方法]
J --> D
```
通过这种基于语义的个性化探索图方法,有望在智能城市等领域实现更高效、更个性化的数据探索,为城市的发展和管理提供有力支持。
0
0
复制全文
相关推荐









