一文读懂元数据
从上图可以看到,元数据A来源于元数据A1、元数据A2以及元数据A3,这背后的技术层面的含义是,一个或者多个ETL作业中存在某个映射管理(计算逻辑),将元数据A1、A2、A3通过加工生成元数据A。其中数据的核心载体是数据平台中的模型以及数据应用中的应用模型,数据模型或者数据应用发生任何的变更都会导致元数据发生变化,例如新增某个业务场景会导致新的元数据产生,减少某个应用场景会导致一些元数据消失。管理性
目录
不管现在的你正在做数据建设、数据治理、数据质量还是BI平台建设,都缺少不了元数据管理。那现在我们就来聊聊元数据管理相关的事情以及落地实践的情况。
元数据勾勒企业的数据地图,告诉企业不同的数据使用方可以在哪里找到自己想要的数据。例如元数据可以告诉技术人员不同的数据间如何转换、如何映射以及存储在何地;再如元数据可以告诉业务人员某个数据指标是否按照既定的口径进行计算,是否真实地反映现实的业务趋势等。
一、元数据的分类
按照《元数据》的定义,元数据主要分为描述性元数据、管理性元数据以及使用型元数据这三大类。管理性元数据分为技术型元数据、结构性元数据、溯源元数据、保存性元数据、权限元数据、元-元数据等。
在我们实际进行数据系统建设中,我们通常把元数据分为三类:技术元数据、业务元数据、管理元数据。
这三类不同的元数据将从三个不同的维度描述数据,即数据是以什么样的形式以及方式进行生产的(技术元数据);数据在企业生产运营中有着什么样的含义(业务元数据);数据是如何被企业不同部门或者不同角色人员所使用或者查看的(管理元数据)。
二、元数据模型
元数据模型通常包括以下几个部分:
- 数据元素(Data Elements):描述数据集中的单个数据项,如字段名、数据类型、长度等。
- 数据结构(Data Structures):描述数据元素如何组织在一起,例如表、数组或对象。
- 数据关系(Data Relationships):定义数据元素之间的关系,如主键-外键关系、关联关系等。
- 数据约束(Data Constraints):描述数据的规则和限制,例如唯一性约束、非空约束、格式约束等。
- 数据源(Data Sources):提供数据来源的信息,如数据采集的时间、地点、方法等。
- 数据质量(Data Quality):描述数据的准确性、完整性、一致性等质量属性。
- 数据安全(Data Security):描述数据的访问控制、加密、备份等安全措施。
三、元数据生命周期
数据是具有生命周期的,而描述数据的元数据是依赖数据生命周期而存在的,所以元数据必然是有生命周期的。然而元数据的生命周期并不是完全与数据的生命周期一致,而是具有自身独特的特点,即元数据的生命周期与业务的发展以及生命周期紧密相连。
1.数据平台建设阶段
在该阶段,元数据的产生大体上经历了5个阶段,分别是业务调研、模型设计、数据接入、数据整合、数据应用。其中数据的核心载体是数据平台中的模型以及数据应用中的应用模型,数据模型或者数据应用发生任何的变更都会导致元数据发生变化,例如新增某个业务场景会导致新的元数据产生,减少某个应用场景会导致一些元数据消失。
2.数据平台应用阶段
在该阶段,元数据分为技术元数据、业务元数据以及管理元数据。技术元数据主要与数据模型以及ETL作业的映射关系相关联,某个映射关系或者数据模型的变更都会引起元数据的变化,例如某个指标删除或者修改,都会带来技术元数据的删除或者修改。同时,指标定义的变更必然导致该指标对应业务元数据的变化,即它代表的含义发生变化。透过现象看本质,这是业务发展或者变更带来的变化。
四、元数据管理体系构建
元数据管理体系建设是一项复杂且具有挑战性的工作,而且一旦开始,将会一直跟随业务的发展而发展。不同的阶段、不同规模的企业、不同行业的业务都具有其自身独特的一套元数据体系。具体地来说,元数据来源于企业不同的系统,不同的系统可能采取不同的标准,导致很多时候无法自动化提取不同系统的元数据信息,而需要手工去补充相应的元数据信息。一旦需要人为地去更新,就需要相应的制度以及规范以保证更新能够持续地进行。可是在实际情况中,数据平台的人员更迭,制度以及规范无法有效地实施,很容易导致元数据无法准确及时地更新,渐渐地,元数据就变得不准确不及时,元数据的管理就失去了原有的价值。
大体来说,元数据系统主要包括,元数据采集、元数据分析、元数据管理、元数据访问等模块。
五、元数据应用
数据领域存在两个非常经典的应用场景,即血缘分析以及影响分析,前者用来查看指标的来源数据加工过程及其准确性,后者用来确定某个指标后续的影响范围。这两个功能也是市面上主流的元数据管理工具必备的功能。
1.血缘分析
从上图可以看到,元数据A来源于元数据A1、元数据A2以及元数据A3,这背后的技术层面的含义是,一个或者多个ETL作业中存在某个映射管理(计算逻辑),将元数据A1、A2、A3通过加工生成元数据A。换句话说,在血缘分析中,如果两个节点相邻,表明它们是有血缘关系,也代表节点存在某个或者多个ETL作业当中。此外血缘分析按照元数据对象的类型可以简单地分为系统级别血缘、表级别血缘以及字段级别血缘,代表着不同系统、不同数据表以及不同字段之间的血缘分析。
2.影响分析
影响分析与血缘分析恰恰相反,是以某个元数据对象为起点,然后遍历它之后的每个节点以及相应节点后续的所有节点,它主要反映的是某个元数据对象的影响范围。
从上图可以看到,元数据B经过一定的处理分别变成元数据B1、B2以及B3。它代表的是一种数据流向以及对应的加工过程。通过影响分析可以清楚地看到某一个元数据变更带来的影响范围。影响分析的最经典的应用是当某一个数据库的对象发生变更时,例如某个字段的长度发生变化,确定对应需要进行优化的ETL作业清单。此外,通过影响分析,可以快速定位上游数据异常时可能的影响范围,并准确地找到那些需要重新执行的作业清单,而非单纯地在出现问题之后,重新执行将整个数据平台对应的调度作业,造成资源浪费以及极大的时间延迟。
七巧低代码是以业务应用搭建为核心的aPaaS低代码应用平台,为客户提供aPaaS+iPaaS的全民数智化解决方案。

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)