星型模式与雪花模式对比分析
立即解锁
发布时间: 2025-08-21 00:27:45 阅读量: 2 订阅数: 13 


智能技术与应用:INTAP 2019精选论文
### 星型模式与雪花模式对比分析
#### 1. 数据集市与数据挖掘
在数据仓库中,存储整个数据库的数据非常消耗内存。我们创建数据仓库(DWs)是为了整合来自多个数据源的数据,这些数据可能需要数TB的存储空间。在美国企业界,数据集市(Data Marts)常用于数据仓库的实施。数据集市是数据仓库的一种更抽象形式,它包含特定领域的数据,用于对特定主题进行分析。例如,我们创建一个包含实验室过去20年数据的数据仓库,但为了进行特定疾病预测或分析过去5年疾病的增长率,我们只提取其中5年的数据。
数据挖掘是数据集市之后的步骤,在这个过程中,我们利用各种方法对有组织的数据进行分析,从中发现模式。它是一个计算过程,通过使用有组织的数据进行未来预测,并以不同的方式探索知识,为公司提供一定的智能支持。通过运行一系列查询,其结果可用于辅助决策。
#### 2. 问题陈述
数据仓库有多种管理方式,其中两种常用的模式是星型模式(SS)和雪花模式(SF)。问题在于如何区分在哪个数据仓库中哪种模式是最佳的,因为在行业中,时间和资源在投资者眼中非常重要。为了解决这个问题,我们将从结构效率的角度分析这两种模式。首先,我们会描述星型模式的工作原理,并给出一个示例以帮助理解结果,然后再描述雪花模式。通过对这两种模式的比较,我们可以为未来的工作找到最佳方法。
#### 3. 文献综述
在当前的文献中,我们分析了一些用于从选定数据库中发现知识的数据仓库技术。这些技术通过挖掘数据集合,提取有用的信息。
##### 3.1 设计建模技术
为了选择适合分析的精确模式,在关系数据库和数据仓库中都会使用各种建模技术。创建者需要清楚地理解这些技术的相关性和局限性。在关系数据库和数据仓库中,设计模式主要遵循两种模型:数据模型和过程模型。
- **过程模型**:在处理数据仓库时,过程模型不太适用,因为它基于需求假设,而这显然不适合数据仓库。由于它处理的需求假设较多,因此更适合用于某些操作环境。过程模型适用于以下领域:
1. 功能分解
2. 环境级图
3. 数据流图
4. 操作图
5. 状态运行图
6. Hipo图
7. 伪代码
- **数据模型**:与过程模型相比,数据建模更适合数据仓库。它主要包含两种技术:实体关系和维度建模。
- **维度建模**:维度建模关注任何模式中事实表的行为,因为在事实表中,所有主键(PKs)都作为外键存在,这确保了每个指定索引只有一条记录,这种行为也被称为星型模式。在表达元素关系时,会使用强制适应的方法来创建维度数据仓库。在星型模式中,重点在于一个表(事实表),其基本原则描述了关联关系,与传统模式不同,没有特定的表能完整地表达所有信息。
##### 3.2 模式评估
随着时间的推移,做事的方式会发生变化,相关应用的数据模型结构背后的理念也可能会发生重大变化。对于数据仓库的设计方案,可能会出现测量变化、即时变化、事实变化、级别变化、属性变化、限制变化和质量变化等情况。设计改进的挑战是持久的,几乎适用于所有数据库。数据仓库中心是迭代创建的,以便未来能够做出关键决策。
##### 3.3 星型模式
在设计数据仓库的ETL过程中,会使用维度建模,其中一种模型就是星型模式。正如其名称所示,星型模式的形状类似星星,它由维度表和一个中央事实表组成,事实表包含事实数据。事实表中包含维度表的主键作为外键,这是维度表和事实表之间的连接方式。维度表包含定性数据,而事实表包含可用于分析或执行某些过程的度量值。
星型模式具有以下属性:
- 维度表将主键作为外键传递到事实表或基表中。
- 它主要包含事实表和维度表。
- 除了事实表,星型模式通常不进行规范化。
- 由于表未规范化,存在冗余数据,因此需要更多的内存和空间。
- 星型模式使用所有维度表的主键,因此事实表看起来比雪花模式更简单。
- 非规范化意味着表的数量较少,表数量少则查询复杂度较低。用于访问星型模式数据的查询称为“星型连接查询”。
为了说明星型模式的查询性能,我们来看一个示例。测试环境要求8GB的RAM和1TB的硬盘存储空间,操作系统使用Windows 2008 Server或2012,SQL服务器使用2008。这些硬件规格仅用于实验,并非固定要求。
示例中的星型模式有一个事实(主)表和三个维度(连接)表。我们使用的查询将判断执行时间和内存使用情况,具体是对d1维度表1中的att1和att2列以及维度表3中存在的att2值进行汇总。通过将查询应用到设计好的模式中,我们得到以下结果:
| 查询 | 进
0
0
复制全文
相关推荐










