
数仓
文章平均质量分 84
Taerge0110
一个只想认真搬砖的码农
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据仓库: 10- 新技术与趋势
实时数据仓库是数据仓库技术的重要发展方向,结合了流式数据处理、高性能存储和实时分析的能力,为业务实时决策和优化提供支持。尽管在性能、复杂性和成本上存在挑战,但随着技术的成熟和工具的完善,实时数据仓库的应用场景将越来越广泛。定义云数据仓库是基于云平台的数据仓库服务,支持存储、整合和分析海量数据,通常以服务(SaaS)形式提供,无需用户管理底层硬件和基础设施。特点弹性扩展:根据业务需求动态调整存储容量和计算资源,无需前期大规模投入。按需付费:基于实际使用量(存储、计算)收费,降低闲置资源的成本。原创 2025-01-13 18:31:50 · 2309 阅读 · 1 评论 -
数据仓库: 9- 数据仓库数据治理
数据标准化是指通过对数据的内容、格式、命名、编码等方面设定统一标准, 以解决数据源多样化、数据冗余和数据冲突等问题, 提升数据的共享性和可用性;数据标准化是数据治理的核心, 确保数据的一致性、准确性和共享性;通过制度和实施标准, 企业可以有效降低数据管理成本, 同时为高级分析和决策提供高质量的数据支持 .原创 2024-12-27 17:54:27 · 2595 阅读 · 0 评论 -
数据仓库: 8- 数据仓库性能优化
数据倾斜: 是指在数据分布过程中, 某些数据节点 (分区或任务) 上的数据量远远多于其它节点, 导致任务的执行时间取决于最慢的节点;某字段值过于集中 (如用户ID中大量重复值);数据分区方式导致某些分区存储了过多的数据;键值分布不均匀, 聚合或链接操作时部分键值过大;数据倾斜是数据仓库性能优化中的一个常见问题, 需要结合具体业务场景、数据分布特点以及查询模式来选择合适的解决方案;理解数据倾斜的原因、识别数据倾斜的节点, 并采取相应的措施, 可以有效提高数据仓库的查询性能 .原创 2024-11-29 16:37:38 · 1718 阅读 · 0 评论 -
数据仓库: 7- SQL和数据处理
复杂 SQL 查询是数据仓库中不可避免的挑战, 但我们可以通过多种优化策略来提高其性能和可维护性;选择合适的优化策略需要根据具体的业务场景、数据量、性能要求等因素总和考虑;窗口函数是数据仓库中进行数据分析的利器, 它能够帮助我们更轻松地计算各种指标、排名和趋势分析;掌握窗口函数的使用方法和优化技巧, 能够显著提高数据分析的效率和灵活性;原创 2024-10-28 18:59:56 · 1705 阅读 · 4 评论 -
数据仓库: 6- 数据仓库分层
清晰的数据结构: 分层结构使得数据仓库的数据组织更加清晰, 易于理解和维护;提高数据质量: 不同层次的数据经过不同的处理和校验, 可以有效提高数据质量;简化数据处理: 分层结构可以将复杂的业务逻辑分解到不同的层次, 简化数据处理流程;提高开发效率: 分层结构可以提高代码复用率, 降低开发成本, 提高开发效率;支持多种应用场景: 不同层次的数据可以满足不同业务部门和应用场景的需求;原创 2024-09-06 18:01:42 · 1553 阅读 · 3 评论 -
数据仓库: 4- 数据质量管理 & 5- 元数据管理
数据清洗是数据仓库数据质量管理中至关重要的一环, 直接影响到数据仓库中数据的可靠性和分析结果的准确性;通过制定合理的清洗规则、选择合适的清洗方法、使用自动化工具以及持续监控数据质量, 可以有效地提高数据质量, 为数据分析和业务决策提供高质量的数据支持 .数据一致性指数据在不同系统、表格或时间点之间保持统一和协调的程度;它确保数据的完整性、准确性和可靠性;数据一致性检查是数据仓库数据质量管理中不可或缺的一环, 它直接影响到数据仓库中数据的可靠性和分析结果的准确性;原创 2024-08-23 18:22:59 · 1965 阅读 · 0 评论 -
数据仓库: 3- ETL过程
数据抽取是数据仓库建设中的重要环节, 需要根据不同的数据源和业务需求选择合适的抽取方式和工具, 并采取有效的措施保证数据质量和效率, 为后续的数据处理和分析打下坚实的基础;数据转换的定义: 数据转换是将源系统中抽取的数据转化为符合目标数据仓库要求的过程;这包括数据清洗、标准化、聚合和结构化等操作;数据转换是 ETL 过程中至关重要的一步, 它直接影响到数据仓库的数据质量和分析结果的准确性;选择合适的转换方法和工具, 并遵循最佳实践, 可以有效地完成数据转换任务, 为数据分析和业务决策提供高质量的数据支持。原创 2024-08-16 16:13:48 · 1018 阅读 · 0 评论 -
数据仓库: 2- 数据建模
星型模型是一种简单、高效的数据仓库设计模型, 使用与各种数据分析和商业智能应用;其易于理解、查询性能高和易于扩展的特性使其成为构建数据仓库的首选方案之一;雪花模型是一种数据库设计模型, 其中维度表被进一步规范化, 形成多层结构, 看起来像雪花的形状;事实表和维度表的设计是数据仓库建设的基础, 需要根据具体的业务需求和数据特点进行设计;一个良好的数据模型可以提高数据查询效率, 方便进行多维分析, 并支持业务决策;原创 2024-08-09 17:04:26 · 1605 阅读 · 3 评论 -
数据仓库: 1- 数据仓库基础
数据仓库 ( Data Warehouse, 简称DW或DWH ) , 也称为企业数据仓库 ( EDW ) , 是一个用于报告和数据分析的系统, 被认为是商业智能的核心组成部分 ; 数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合, 用于支持管理决策 ; 它可以帮助企业整合来自不同数据源的数据, 并将其转换为易于理解和分析的格式 ;原创 2024-08-02 16:06:14 · 1228 阅读 · 0 评论 -
Python实现数据库表的监控告警功能
简介:使用Python 实现对数据库表的监控告警功能, 并将告警信息通过钉钉机器人发送到钉钉群实现DataWorks中数据质量的基本功能, 当然 DW的数据质量的规则类型很多, 用起来比较方便, 这里只简单实现了其中两个规则类型的功能, 仅供参考;初次使用Python, 请多指教使用工具: MaxCompute。原创 2024-01-05 18:52:37 · 794 阅读 · 0 评论 -
Transactional Table(事务表)创建和使用
创建可以支持增删改操作(insert,delete,update)的事务表; 使用工具: maxcomputer; 本次创建 Transactional Table 1.0表; 初次使用,欢迎指教;原创 2024-01-03 18:20:39 · 1718 阅读 · 0 评论