
数据仓库
文章平均质量分 87
猫猫姐
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数仓建模—初识数据治理
2015年左右,企业兴起了大数据平台的建设,并且到2018年,数据中台概念流行,数据中台中包含统一资产管理、统一数据元管理等与数据治理相关的内容。按IBM的定义,数据治理是企业通过不同的策略和标准,提高组织数据的可用性、质量和安全性的一整套制度与管理活动,数据治理的目标是维护安全且易于访问的高质量数据,以获取更深入的业务洞察。在包括金融、通信、能源、制造等数据治理开展相对成熟的行业,较多企业都已设置数据治理的专职部门和岗位,而且越是数据治理成熟的企业,专职部门越是靠近业务侧,且专职部门级别越高。原创 2024-06-24 20:20:35 · 3107 阅读 · 0 评论 -
数仓建模—血缘分析
数据血缘,又称数据血统、数据起源、数据谱系,是指数据的全生命周期中,数据从产生、处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系。其记录了数据产生的链路关系,这些关系与人类的血缘关系比较相似,所以被成为数据血缘关系。比如,数据A经过ETL处理生成了数据B,那么我们就说数据A与B有着血缘关系,且数据A是数据B的上游数据,同时数据B是数据A的下游数据。按血缘对象来分,可分为系统级血缘、表级血缘、字段(列)级血缘。不管是结构化数据还是非结构化数据,都必定存在数据血缘关系。原创 2024-05-11 09:55:10 · 3188 阅读 · 0 评论 -
数据仓库—维度建模—事实表设计
顾客单次购买行为的体现是一张购物小票,但是事务事实表应该选择最原子粒度的事件,所以小票的子项(在业务上的动作即为收银员每次扫描的商品条码)应该是超市零售事务事实表的粒度。这里的粒度主要指库存的周期,商品的粒度很容易确定(注意这里是 SKU 级别)。选择库存的周期需要考虑到数据量膨胀情况。考虑如下例子,某个超市有 万个商品(即SKU), 其有 100 家连锁店,那么每天对其库存拍照将有 100_10000=100 万行记录,那么一年将有 365_1000000=3.65亿条记录。原创 2024-04-16 08:49:10 · 4622 阅读 · 0 评论 -
数据仓库—维度建模—维度表设计
首先要学会识别维度,维度是相对稳定的、可抽象具有共性的、固有的(天然的)描述度量或事实的上下文属性信息,失去维度信息的度量信息是没有意义的或者说是失去维度信息的事实表是没有意义的。其次要掌握维度表的设计原则和设计流程,从而更加科学的设计维度表,其实这些东西都是术,我们一直都说一句话大道至简,其实如果你掌握了精髓,抛开这些术也可以做到得心应手,这就像张无忌练太极剑一样,忘记了才能达到道的境界,也就是无我,如果做不到就记住这些原则加以应用从而达到术的境界。原创 2024-04-14 07:49:38 · 4159 阅读 · 0 评论 -
数据仓库—ETL最佳实践:提升数据集成的效率与质量
ETL是确保数据集成项目成功的关键。通过遵循上述实践,企业可以提高ETL过程的效率和质量,确保数据的准确性和一致性,从而为业务决策提供可靠的数据支持。随着数据量的不断增长和新技术的不断涌现,ETL领域也在不断进化,企业需要不断学习和适应新的技术和方法,以保持其数据管理的先进性和竞争力。原创 2024-04-13 15:56:10 · 4281 阅读 · 0 评论 -
数据仓库—ETL技术全景解读:概念、流程与实践
ETL是数据仓库建设的关键环节,通过提取、转换和加载数据,它为企业提供了准确、一致的数据支持。随着数据量的不断增长和数据类型的多样化,ETL技术也在不断发展和完善,以满足日益复杂的数据处理需求。企业应充分认识到ETL的重要性,并投入适当的资源和技术,以确保数据管理的成功。原创 2024-04-12 11:12:36 · 3995 阅读 · 0 评论 -
数据仓库—ETL工具与技术:数据仓库的坚实基石
ETL工具和技术是数据仓库建设的坚实基石。随着数据量的爆炸性增长和新技术的不断涌现,ETL领域也在不断进化。作为一名数据仓库从业者,我们需要不断学习和掌握新的ETL技术和工具,以适应不断变化的业务需求和技术挑战。通过精心设计和实施ETL流程,我们可以为企业的数据驱动决策提供强有力的支持。原创 2024-04-11 09:32:16 · 4439 阅读 · 2 评论 -
数据仓库—大数据建模
综上所述,大数据建模是一个复杂且多样化的过程,需要结合业务需求和技术能力来设计和实施有效的数据模型。原创 2024-04-10 08:02:20 · 4065 阅读 · 1 评论 -
数据仓库—主数据管理
主数据是指在企业中广泛使用且对业务活动具有重要影响的数据。这些数据通常跨越不同的部门和业务功能,并被多个系统共享和使用。主数据管理是一种方法论和技术,旨在统一、规范和管理组织内部的主数据,以确保数据的准确性、一致性和完整性。主数据管理与元数据管理相辅相成主数据管理为企业数字化转型打好基础做好铺垫元数据管理为企业主数据管理提供支持主数据管理是现代企业管理中不可或缺的一部分,它不仅可以提高数据的质量和可信度,还可以促进企业的业务创新和发展。原创 2024-04-09 12:19:24 · 4019 阅读 · 0 评论 -
数据仓库的—数据仓库的体系架构
提高数据仓库的性能和可扩展性。提高数据仓库的可用性和易用性。提高数据仓库的安全性。分层也带来了一定的缺点增加数据仓库的复杂性。增加数据仓库的成本。数据仓库架构是数据仓库建设的关键环节。合理的数据仓库架构可以提高数据仓库的性能、可扩展性、可用性、易用性和安全性。具体来说,数据仓库的分层可以提高数据仓库的性能和可扩展性,因为它可以将数据仓库中的数据按照不同的粒度和主题进行组织和管理,从而使数据用户更容易找到和使用所需的数据。从而减少数据访问和处理的时间和资源消耗。原创 2024-04-08 14:20:26 · 3730 阅读 · 0 评论 -
数据仓库—数据仓库的特征
数据仓库的特征使得数据仓库成为面向分析决策的数据基础架构,与传统的面向交易处理的OLTP系统形成了明显区别和互补。数据仓库可以提供一个集中、一致、高质量的数据环境,满足企业的商业智能和分析需求。总的来说,OLTP侧重于对详细操作数据的高效处理和持续更新,以满足日常业务运营需求;而OLAP则着眼于对集成的统计数据进行复杂分析,为企业决策提供支持。两者在设计理念和目标上存在着本质区别。原创 2024-04-08 14:19:24 · 3921 阅读 · 0 评论 -
数据仓库—数据仓库的技术实现方案
数据仓库的技术栈是构建数据仓库的关键环节。合理的数据仓库技术栈可以提高数据仓库的性能、可扩展性、可用性和安全性。在选择数据仓库技术栈时,需要考虑企业的具体需求和预算。原创 2024-04-06 14:51:24 · 4139 阅读 · 0 评论 -
数据仓库—建模方法论—Data Vault 建模
按照Dan Linstedt的定义,Data Vault模型是面向细节的、可追踪历史的、一组有连接关系的规范化的表的集合。它综合了三范式建模和星型模型的优点,其设计理念是满足企业对数据模型灵活性、可扩展性、一致性和对需求的适应性要求,是专门针对企业级数据仓库需要的一套建模方法。Data Vault模型只按照业务数据的原始状态存储数据,不做任何过滤、清洗、转换,比如:同一客户在不同系统有不同地址,Data Vault模型会存储多个不同版本的客户地址数据。原创 2024-04-04 10:04:54 · 4125 阅读 · 0 评论 -
数据仓库—建模方法论—纬度建模星型模型与雪花模型
综上所述,星型模型适用于简单的分析需求和对查询性能有较高要求的场景,而雪花模型适用于复杂的业务需求和对存储空间和灵活性有较高要求的场景。可以发现数据仓库大多数时候是比较适合使用星型模型构建底层数据Hive表,通过大量的冗余来提升查询效率,星型模型对OLAP的分析引擎支持比较友好,这一点在Kylin中比较能体现。而雪花模型在关系型数据库中如MySQL、Oracle中非常常见,尤其像电商的数据库表。原创 2024-04-01 21:56:16 · 4355 阅读 · 0 评论 -
数据仓库—建模方法论—维度建模
度建模是一种用于设计数据仓库的建模技术,旨在以用户友好的方式组织数据,以支持复杂的查询和分析。它基于两种核心概念:事实表和维度表。事实表(Fact Table):事实表包含了业务过程中发生的事实数据,通常是数值型数据,如销售额、数量、成本等。事实表中的每一行通常代表一个业务事实的记录,它们通常与一个或多个维度表关联,形成了多对一或多对多的关系。维度表(Dimension Table):维度表包含了描述业务过程的各种维度信息,如时间、地点、产品、客户等。原创 2024-04-01 21:45:37 · 3328 阅读 · 0 评论 -
数据仓库—建模方法论—范式建模
不知道读者们有没有发现,以上所介绍的范式的最终目的都是为了减少我们的工作量呢?所以说,尽管范式是一种很好的指导规范,但在实际应用中,我们也不需要太局限在范式中,更多的是应该从项目中出发,设计出合理的表结构。以下是本篇三范式的简单总结:第一范式(1 NF):字段不可再拆分。第二范式(2 NF):表中任意一个主键或任意一组联合主键,可以确定除该主键外的所有的非主键值。第三范式(3 NF):在任一主键都可以确定所有非主键字段值的情况下,不能存在某非主键字段 A 可以获取 某非主键字段 B。原创 2024-04-01 12:40:46 · 4330 阅读 · 0 评论 -
数据仓库—数据仓库的发展历程
数据仓库的概念可以追溯到20世纪60年代,但真正形成理论并被企业广泛应用还需要一个较长的发展过程。原创 2024-04-01 09:04:05 · 4021 阅读 · 0 评论 -
数据仓库—数据仓库建设的意义
总之,数据仓库通过集成企业数据资源、提供高质量决策支持数据、改善业务流程、促进协作等,为企业创造了显著的价值,助力企业实现数字化转型,驱动业务创新和发展。原创 2024-03-31 23:29:14 · 3487 阅读 · 0 评论 -
数据仓库—什么是数据仓库
数据仓库将来自不同源的分散数据进行集成,以主题化的方式组织历史数据,提供一个稳定、一致的企业数据平台,为决策分析提供强大的支持。它解决了传统系统无法满足决策支持需求的缺陷。通过数据仓库,企业可以全面了解内外部业务运营情况,发现问题和机遇、分析历史趋势、预测未来走向,为业务策略、投资方向、营销策略等各类管理决策提供数据支持。是实现商业智能的关键基础平台。数仓架构的这种分层架构设计使数据集成和管理更高效,同时也为用户决策分析提供了可靠、高质量的数据资源。原创 2024-03-31 23:26:50 · 4050 阅读 · 0 评论