1.背景介绍
2019年已经过去了半个多世纪,数据一直作为当今互联网公司不可或缺的一项核心资源。随着互联网的飞速发展,海量的数据正在不断产生。数据的价值越来越成为企业的一个重要的核心竞争力。然而,由于不同部门、业务团队之间的信息孤岛,使得各自的业务信息无法顺利地整合到一起,因此如何有效地从众多数据源中汇总、处理和分析数据变得尤其重要。在这种情况下,数据中台(DataHub)应运而生,它是构建企业级大数据基础设施的重要组件之一。作为一个中心化的数据集成平台,数据中台能够解决数据全生命周期管理、大数据分析挖掘、智能应用和服务等核心难题。
数据中台架构由四部分构成:数据接入层(Data Ingestion Layer),数据存储层(Data Storage Layer),数据计算层(Data Processing Layer)和数据展示层(Data Presentation Layer)。其中,数据接入层负责收集外部数据并加载到数据存储层,包括日志文件、文本数据、图片视频等;数据存储层存储所有上游数据,通过统一的数据接口提供给数据计算层进行处理;数据计算层对数据进行整合、清洗、转换、加工等处理,形成可用于分析的业务价值;数据展示层将处理后的数据呈现给用户,包括仪表盘、报告、数据集市等。通过这一系列的协同工作,数据中台可以实现数据采集、存储、处理、分析和呈现等整个过程自动化、标准化,提升数据处理效率、降低运营成本、实现数据价值的共享和整合。
图1:数据中台架构示意图
除了上面介绍的数据中台架构外,2018年阿里巴巴集团发布了一套云计算数据中台框架。该框架主要包括数据湖、数据分析及服务、大数据智能支撑、数据质量管理等模块,为企业提供了一站式数据开发环境,包括数据采集、分发、转换、存储、分析