大数据:
TL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL 是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。我们在下方列出了7款开源的ETL工具,并讨论了从 ETL 转向“无 ETL”的过程,因为 ELT 正迅速成为现代数据和云环境的终极过程。
1.1 ETL的定义 ETL分别是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写也就是“抽取”、“转换”、“装载”,但我们日常往往简称其为数据抽取。ETL是BI/DW(商务智能/数据仓库)的 核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。ETL包含了三方面,首 先是“抽取”:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。其次“转换”:按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据 格式能统一起来。最后“装载”:将转换完的数据按计划增量或全部导入到数据仓库中。
建立企业级大数据中台
赋能业务应用、 建设数据资产、承启技术平台
什么是中台?
数据好比石油,,数据中台好比发电厂,用户好比用电。
数据中台是企业的数据服务工厂,完成从数据到价值的加工过程,它是包含聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。
数据中台不是一个特殊的产品或者一个技术架构,他是一种综合解决方案或者是运营理念。数据中台的核心在于建立一种标准的数据体系,快速支撑前段应用的能力。通过数据来驱动业务的创新和变革。数据中台就好比一颗大树,业务产生了基本的数据,然后在大树的作用下产生果实和二氧化碳,又返回给了大树、鸟、空气。数据来源于业务又反哺于业务,周而复始,蕴含着无限的能量,形成了一个数据生态,这个生态蕴含着无穷的可能性。中台是一种:技术、赋能、创新、生态。
二者处理数据的思路是一样的, 分布式并行处理, 某种程度上也都能完成同样