数据质量与视图选择策略解析
发布时间: 2025-08-17 01:25:32 阅读量: 1 订阅数: 3 

### 数据质量与视图选择策略解析
#### 1. SAP PI 数据质量对企业架构模型的影响
在企业服务构建器中,数据质量是一个关键因素,尤其是在涉及企业架构(EA)模型的生成和评估时。关于企业服务构建器内的平均删除时间,有相关数据表明,对于集成构建器而言,56%的受访者表示删除时间间隔短于 6 个月,甚至有 21%的人认为是 0 - 1 个月。
##### 1.1 EA 模型质量的影响因素
- **完整性**:先前的调查显示,EA 模型的信息内容局限于通信过程中使用的元素。尽管系统景观目录(SLD)在官方层面被视为系统景观的核心信息源,但超出通信过程的信息通常会被抽象化。
- **正确性**:对 SAP PI 系统数据的分析显示,大多数情况下数据是正确的,特别是存储在企业服务存储库和集成构建器中的数据。由此衍生的 EA 信息也具有较高的正确性。
- **时效性**:SAP PI 系统中的孤立数据是一个问题。这些数据虽然仍存储在系统中,但实际上已不再使用。这会导致提取的 EA 信息产生误导,无法支持做出恰当的决策。与手动收集数据时可能会过滤掉孤立数据不同,自动化过程中缺少了这种人为过滤机制,因此需要在其他方面弥补质量损失。
##### 1.2 结论与展望
从调查结果来看,生产性 SAP PI 系统中的大部分数据似乎是准确的(完整且正确)。结合近期研究,SAP PI 系统似乎适合作为自动化 EA 文档工作的起点。然而,这一结论不能一概而论,还需要对生产性 IT 环境进行更多研究,以发掘自动化 EA 文档的真正潜力。未来的研究可以整合配置管理数据库(CMDBs)和基础设施监控工具,这对影响分析和战略规划将非常有益。长期来看,当从业务流程和能力等上层收集信息时,预计会出现更多非结构化信息,这将对数据质量和 EA 文档自动化潜力产生影响,因此对流程挖掘领域进行深入研究或许是值得的。
#### 2. 两阶段随机视图选择问题
在数据密集型系统中,如商业或科学数据仓库,存储着大量数据,且数据规模随时间不断增长。回答典型的数据分析查询可能需要对大量存储数据进行汇总,直接评估这些查询往往复杂且耗时。
##### 2.1 视图选择的背景与意义
为了降低数据查询的评估成本,一种方法是预计算并存储额外的关系,即物化视图。物化视图在处理复杂数据查询时具有显著优势,因为它以紧凑的形式存储了大量数据预处理的结果。然而,由于可用存储空间和计算资源的限制,需要解决如何选择一组有益视图的问题,即“视图选择问题”。
近年来,许多研究围绕视图选择问题展开,涵盖了各种确定性和概率性环境。一些研究针对单查询工作负载提出了解决方案,我们称之为单阶段视图选择问题。还有研究考虑了未来查询工作负载的先验知识,以便选择不仅对当前查询有益,还对未来查询有潜在帮助的视图。另外,动态视图选择问题也受到关注,即根据查询工作负载的变化持续选择视图。同时,索引选择方面也有大量研究。
##### 2.2 两阶段随机视图选择问题的定义
本文引入了两阶段概率环境下的视图选择问题,其中阶段 1 代表当前时间,阶段 2 代表未来某个时间点,我们将其称为两阶段随机视图选择问题。该问题是 NP 难问题,我们将其表述为两阶段随机规划模型,并证明它等价于整数规划(IP)模型,可通过商业 IP 求解器解决。
##### 2.3 问题的具体描述
在两阶段概率环境的视图选择问题中,我们面临当前阶段(阶段 1)的查询工作负载 Q1 和未来阶段(阶段 2)的查询工作负载 Q2。Q1 是已知的,而 Q2 是一个具有给定概率分布函数的随机集合。
- **阶段 1**:我们需要物化一组视图 S1 来回答 Q1 中的查询,同时视图的总大小不能超过存储限制 b1。
- **阶段 2**:当阶段 2 的实际查询 Q2 确定后,我们可以部分替换阶段 1 构建的视图关系,以获得用于回答 Q2 的视图集合 S2。新物化视图的总大小不能超过存储限制 b2,且 b2 ≤ b1。
我们的目标是最小化阶段 1 查询的总评估成
0
0
相关推荐







