数据准备与建模:开启数据分析之旅
立即解锁
发布时间: 2025-09-02 01:54:02 阅读量: 10 订阅数: 16 AIGC 


Power BI商业智能入门
### 数据准备与建模:开启数据分析之旅
#### 数据准备的总结与实践
在数据准备阶段,我们从整理和清洗的角度学到了很多处理数据的方法。需要知道的是,使用 Power Query 我们只是触及了其功能的表面。当你发现仅通过用户界面无法满足需求时,可以在高级编辑器中修改 M 查询代码以深入挖掘其潜力。现在,你已经具备了自行准备数据的能力。
完成数据准备后,我们可以用电影数据在报告中添加一个可视化图表来为这项工作画上句号。具体操作步骤如下:
1. 使用“关闭并应用”按钮关闭 Power Query,然后保存更改。
2. 在报告视图中,向画布添加一个簇状柱形图(位于顶部行的第四个图标)。
3. 在 X 轴属性中,添加“流派名称”字段(来自新的“流派”表)和“原始标题”字段(来自“电影”表)。
4. 在 Y 轴属性中添加“收入”字段(默认会显示为“收入总和”,这是没问题的)。
完成上述操作后,你将得到一个类似图 5.32 的可视化图表,它显示出冒险电影是收入最高的流派。如果你点击右上角的向下钻取箭头,然后点击“冒险”列,就可以深入查看构成该高收入类别的不同冒险电影。
#### 数据建模的引入
在前面的内容中,我们讨论了表、列、数据类型和关系。在完成数据准备以用于报告之后,可能会有一些疑问:如何知道哪些数据应该放在哪些表中?是直接从数据源引入数据并将它们混合在一起,还是有更好的混合方式?这就是数据建模发挥作用的地方。
数据建模是一种组织数据的方式,使其与真实实体的属性相对应。例如,我们可以创建一个代表真实天气事件的数据模型。这些天气事件具有类型、发生时间、持续时间和地点等属性。数据模型可以将所有这些数据存储在一个表中,也可以存储在多个表中,这取决于数据模型的用途。
如果要创建一个通过从区域内的多个传感器收集数据来实时记录天气事件的系统,该系统需要具备非常快的性能。在这种情况下,数据模型必须能够以毫秒甚至纳秒的级别处理数据录入。在这个场景中,我们更关注不丢失数据并尽可能快地捕获数据。通常,这样的数据模型可能在气象学家看来与现实不太相符,表可能只是传感器数据的简单汇总,每行只有一两个字段,对分析的作用不大。实际上,收集的数据甚至可能不以类似表的格式存储,此时数据模型与真实实体的对应程度较低。
然而,一旦收集到数据,我们可能希望创建一个更符合气象学家分析需求的不同模型。当他们查看这个模型时,它应该与他们对天气的理解方式相对应,可能包含天气事件、事件类型、地点、持续时间等方面。这样的模型与真实实体的对应程度就会很高。
#### 维度建模的概念
在众多数据建模方法中,最适合 Power BI 且能为报告使用者构建最易理解模型的方法是维度建模。它由 Ralph Kimball 开发,并在他 1996 年的《The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling》(现已推出第三版)一书中首次进行了描述。虽然在 Power BI 中创建数据模型时不一定要遵循维度建模(DM)方法,但要知道 Power BI 在设计上是为了在数据符合这种建模方式时能最有效地运行。
维度建模本质上有两种类型的表:一种用于衡量业务流程、活动或事件,称为事实表;另一种用于描述业务流程、活动或事件,称为维度表。
事实表包含与业务活动相关的事实值,这些值几乎总是用于衡量活动某个方面的数值。维度表则包含用于描述业务或组织活动的相关信息。
在数据仓库的早期,数据库有时被称为立方体。这是因为被衡量的活动可以被可视化为一个具有三个维度的立方体,这可能就是维度概念的来源。尽管被称为立方体,但实际上通常会有多个维度。为了便于学习,从三个维度开始有助于我们理解维度建模。
下面通过一个零售交易的例子来说明维度和事实的区别:
| 产品 | 商店 | 日历 |
| ---- | ---- | ---- |
| M&Ms | Ardmore, PA | Mar. 2013 |
| Diet Coke | Templ
0
0
复制全文
相关推荐









