数据治理是将采集与汇聚的数据进行清洗、转换,生成可用的数据存入数据仓库中。
ETL逻辑结构按照处理过程可划分为ETL预处理、ETL转换清洗、ETL目标数据装载。对于数据提供者,包括业务系统以及管理系统,通过ETL预处理,数据装载入数据缓冲区。ETL转换清洗通过连接、合并、分割,按照清洗规则对数据缓冲区、数据存储区的数据进行加工、汇总,最终装载入数据存储区。
ETL预处理:
加载源系统数据,增加时间拉链,数据装载入数据缓冲区。对源数据做数据平衡检查、稽核数据有效性,报告数据质量问题。
ETL清洗:
对数据缓冲区数据标准化,统一数据表达格式,排序数据,筛选重复数据,合并或分割数据项,装载入数据存储区的基础数据层,报告数据转换清洗异常。
ETL转换:
对操作型存储区的贴源标准化数据,按照业务转换规则、通用数据清洗规则,加工数据,装载入数据仓库区的基础层。ETL3处理是耗时最长,逻辑处理最复杂的阶段,需要非常重视。
ETL再转换:
从数据仓库层进行适量的维度、指标建模。一些低粒度数据逐步向高粒度数据归并和汇总。
ETL目标数据装载:
提供数据存储区的层数据。本模式提供历史仓库允许的相应时间段的历史数据支持。
SSIS 是一款经典的ETL工具,是企业级的数据整合方案,内置于SQL Server企业版中
- 面世10余年,是功能最丰富,资历最深的ETL工具之一。
- 图形化管理界面,易学,易用。
- SQL Server Data