大数据之路 读书笔记 Day8 数据存储

回顾:
大数据之路 读书笔记 Day7 实时技术 简介及流式技术架构
大数据之路 读书笔记 Day6 离线数据开发之数据开发平台

数据存储

1 数据类型

实时任务在运行过程中,会计算很多维度和指标,这些数据需要放在一个存储系统中作为恢复或者关联使用。其中会涉及三种类型的数据:

  • 中间计算结果——在实时应用处理过程中,会有一些状态的保存(比如去重指标的明细数据),用于在发生故障时,使用数据库中的数据恢复内存现场。

  • 最终结果数据——指的是通过 ETL 处理后的实时结果数据,这些数据是实时更新的,写的频率非常高,可以被下游直接使用。

  • 维表数据——在离线计算系统中,通过同步工具导入到在线存储系统中,供实时任务来关联实时流数据。

维表数据在实时数据处理任务中扮演着关键角色,尤其是在构建实时数据仓库或实时分析系统时。维表,即Dimension Tables,是数据仓库架构中的重要组成部分,它们包含了描述性的信息,用来给事实表中的数据提供上下文。在实时任务中,维表数据的使用主要体现在以下几个方面:

  1. 上下文丰富
    维表提供了对事实数据的详细描述,如产品类别、客户信息、地理位置等,这些都是在事实表中通过外键引用的。当实时流数据到达时,通过与维表的关联,可以增加数据的维度,从而让数据更加丰富和有意义。

  2. 实时关联
    实时任务需要快速地将流数据

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Frank牛蛙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值