雾计算环境下数据密集型应用的数据效用模型
立即解锁
发布时间: 2025-08-23 01:56:13 阅读量: 1 订阅数: 3 

# 雾计算环境下数据密集型应用的数据效用模型
## 1. 引言
近年来,传感器、智能设备和可穿戴设备被广泛应用,产生了大量数据,这些数据可作为多个应用分析的输入。数据密集型应用要从这些数据中受益,数据需可靠、及时且符合应用要求。设计数据密集型应用时,需在数据分析价值(受数据质量和数量影响)和分析性能(受数据访问延迟和数据源可用性影响)之间进行权衡。
当前,为提高数据处理效率,人们提出了许多工具和架构,如 HDFS、NoSQL 数据库、MapReduce 编程模型和 Lambda 架构等,多数解决方案基于云资源运行,因其能提供可扩展性、可靠性和安全性。然而,考虑整个数据管理生命周期,云环境并非唯一选择。在物联网场景中,数据在边缘产生,传输到云端存储和处理后再返回边缘,这一过程可能因网络基础设施引入显著延迟。
为应对这一问题,出现了边缘计算,即让数据处理在数据产生地进行,适用于对资源需求不高的情况。同时,雾计算作为一种平台兴起,它能在云数据中心和网络边缘设备之间提供计算、存储和网络服务,可看作云计算和边缘计算的有效结合。
本文采用面向服务计算范式,将数据集作为数据即服务(DaaS)提供。这需要向最终用户准确描述数据,除功能方面,还应包含数据存储位置、格式和质量等非功能方面。为简化用户决策,引入了数据效用的概念,即数据对使用场景的相关性,场景由设计者目标和系统特征定义。开发者需求通过功能(如提取去年患者检查数据)、非功能(如延迟、数据完整性)方面及约束(如数据必须加密存储)来表达。
## 2. 相关工作
数据效用的概念在多个领域被使用,不同领域有不同定义:
|领域|数据效用定义|
| ---- | ---- |
|一般 IT 领域|信息与所指场景的相关性,以及与其他相似信息的差异和对减少不确定性的贡献|
|商业场景|特定使用场景下数据的商业价值|
|统计领域|描述给定数据发布作为分析资源的价值,包括数据的分析完整性和有效性|
这些定义的共同点是,数据集的效用不能脱离其使用场景独立考虑。定义场景并非易事,且场景概念会动态变化。例如,在信息经济学领域,评估数据效用的经济因素包括数据集分析的预期收益和成本、使用分析结果的收益和成本以及构建分析算法的收益和成本。
数据效用还与数据分析的特定目标、服务质量和数据质量有关。例如,在数据挖掘应用和用户需求方面对数据效用有不同分析;在移动云环境中研究了数据效用与服务质量(如移动设备能源效率)的关系;也考虑了数据质量(如准确性和完整性)对数据效用的影响。此外,还分析了数据效用在 IT 与商业关系中的作用,将其与业务流程关联起来。
## 3. 运行示例
以智能建筑场景为例,每间房间都安装了传感器,用于收集湿度、亮度和温度信息。这些信息存储在网络边缘,并可供多个管理智能建筑的应用使用。此外,还可通过 DaaS 集成外部天气数据。
具体关注一个数据密集型应用,其目标是分析和改善建筑内的舒适度,该应用执行以下任务:
1. **任务 A - 环境感知对齐**:收集建筑物内温度、湿度和亮度传感器的数据,并进行预处理(如时间戳对齐和数据清理)。
2. **任务 B - 环境感知聚合**:分析预处理后的数据,获取每个传感器的统计信息(如最大值、最小值和平均值),并比较相似传感器的数据以获得典型行为。
3. **任务 C - 数据丰富和预测**:结合上一步生成的数据和建筑物所在区域的天气信息,对房间状态进行预测。
4. **任务 D - 可视化准
0
0
复制全文
相关推荐










