回顾:
大数据之路 读书笔记 Day7 实时技术 简介及流式技术架构
大数据之路 读书笔记 Day6 离线数据开发之数据开发平台
数据存储
1 数据类型
实时任务在运行过程中,会计算很多维度和指标,这些数据需要放在一个存储系统中作为恢复或者关联使用。其中会涉及三种类型的数据:
-
中间计算结果——在实时应用处理过程中,会有一些状态的保存(比如去重指标的明细数据),用于在发生故障时,使用数据库中的数据恢复内存现场。
-
最终结果数据——指的是通过 ETL 处理后的实时结果数据,这些数据是实时更新的,写的频率非常高,可以被下游直接使用。
-
维表数据——在离线计算系统中,通过同步工具导入到在线存储系统中,供实时任务来关联实时流数据。
维表数据在实时数据处理任务中扮演着关键角色,尤其是在构建实时数据仓库或实时分析系统时。维表,即Dimension Tables,是数据仓库架构中的重要组成部分,它们包含了描述性的信息,用来给事实表中的数据提供上下文。在实时任务中,维表数据的使用主要体现在以下几个方面:
上下文丰富:
维表提供了对事实数据的详细描述,如产品类别、客户信息、地理位置等,这些都是在事实表中通过外键引用的。当实时流数据到达时,通过与维表的关联,可以增加数据的维度,从而让数据更加丰富和有意义。实时关联:
实时任务需要快速地将流数据