数据仓库的数据分层通常包括以下几层:
- ODS层:存放原始数据,如日志数据和结构化数据。
- DWD层:进行数据清洗、脱敏、维度退化和格式转换。
- DWS层:用于宽表聚合值和主题加工。
- ADS层:面向业务定制的应用数据层。
- DIM层:一致性维度建模,包括低基数和高基数维度数据。
为了更好地理解数据仓库的各个方面,我们以一个广告投放平台为例,详细说明各个层级的数据处理和使用,并附带一些代码示例。
1. ODS层
ODS(Operational Data Store)层存放的是原始数据。比如,广告点击日志数据。
示例数据:
{
"log_id": "12345",
"user_id": "67890",
"ad_id": "54321",
"timestamp": "2023-06-21T12:00:00Z",
"action": "click",
"cost": 0.5
}
2. DWD层
DWD(Data Warehouse Detail)层进行数据清洗、脱敏、维度退化和格式转换。
数据清洗代码示例(使用PySpark):
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, from_unixtime
# 创建SparkSession
spark =