《第3章 数据仓库设计》主要探讨了数据仓库设计的关键概念和原则,包括数据模型的构建、概念模型设计、逻辑模型设计以及模型转换等方面。以下是详细的知识点解析:
1. **数据模型概述**:
- 数据模型是计算机世界中对现实世界的抽象,从概念世界到逻辑世界再到物理世界,通过数据模型来表达实体、属性和关系。
- 数据模型有三个主要层次:概念模型、逻辑模型和物理模型。数据仓库设计中还需要考虑粒度模型和元数据模型。
2. **数据仓库模型构建的原则**:
- 满足不同用户需求:设计应考虑多样化的信息需求。
- 效率与数据粒度平衡:在保证性能的同时,提供适当的数据详细程度。
- 支持需求变化:模型应具备一定的灵活性,以适应未来的需求。
- 不影响业务运营系统:设计不应干扰到日常业务操作。
- 考虑可扩展性:为未来的数据增长和功能扩展预留空间。
3. **概念模型设计**:
- E-R模型是概念模型设计的基础,包括实体、属性和联系的定义。
- 在数据仓库中,E-R模型的局限性在于模糊性、静态性和局限性。为克服这些问题,实体被分为事实实体、维度实体和引用实体。
- 数据仓库数据通常比普通数据库数据更侧重于长期、汇总和静态特性,且访问方式以特殊查询为主。
4. **常见概念模型**:
- **星形模型**:中心事实表周围环绕多个维度表,结构简洁,查询效率高。
- **雪花模型**:在星形模型基础上,维度表进一步细分,形成更复杂的树状结构,提高数据规范性但可能增加查询复杂度。
- **事实星座模型**:适用于复杂场景,包含多个事实表,维度表之间有交叉关联,但在实际应用中较少。
5. **逻辑模型设计**:
- 逻辑模型是概念模型的具体化,包括中间层逻辑模型的构建,如超类型、子类型、初始数据组等。
- 概念模型向逻辑数据模型的转换涉及识别事实、确定维、数据汇总水平、设计表结构,并随需求变化调整。
6. **数据表规范化与分割**:
- 规范化是去除冗余,确保数据一致性,包括消除无关列、移动可推导的函数依赖等步骤。
- 维度表设计是细化事实表的过程,提供详细信息,属性通常包括文字、离散值等,设计时应直接关联事实表以优化性能。
7. **事实表设计**:
- 事实表是模型核心,包含键(主键和外键)和详细指标,用于满足查询需求。
这些知识点构成了数据仓库设计的基础,理解并掌握这些原理和技术对于构建高效、灵活且可扩展的数据仓库至关重要。