目录
背景
根据《2023数据中台成熟度报告》,78%的ETL任务性能瓶颈源于分层设计不合理。本文基于某头部电商平台PB级数据仓库建设经验,结合金融风控、用户画像、实时大屏等核心场景,深度解析ODS→DWD→DWS→ADS四层架构设计原则,揭秘万亿级数据治理方案与维度建模20大避坑策略。
一、数据仓库四层架构黄金模型
1. 四层核心功能对比
层级 | 数据定位 | 存储策略 | 典型表结构 |
---|---|---|---|
ODS | 原始数据镜像 | 按天分区+Snappy压缩 | JSON/CSV原样存储 |
DWD | 业务过程明细数据 | 列式存储+动态分区 | 事实表+维度表 |
DWS | 主题域汇总数据 | 分桶表+ZORDER排序 | 宽表/聚合表 |
ADS | 应用层指标数据 | 热数据缓存+TTL策略 | 指标卡/报表视图 |