数仓基本知识

最新推荐文章于 2025-06-16 21:29:28 发布

原创最新推荐文章于 2025-06-16 21:29:28 发布 · 1k 阅读

5 ·

CC 4.0 BY-SA版权

笔记同时被 2 个专栏收录

169 篇文章

订阅专栏

数据仓库

2 篇文章

订阅专栏

数仓基本知识

概要

以下描述包含我对整个数仓及其概念的简化提炼。适合新手了解相关概念，快速上手，老鸟请绕过。

业界为什么要用“数仓”?

说起数仓，业界为什么要开发数仓的技术？我们有mysql数据库，mongo数据库，业界为什么要推出个”数仓”的技术？

因为存储，因为查询。

存储： mysql在阿里开500G磁盘空间就将近4w块钱一个月，而且已经达到最大值，如果我们要100个T数据（1T=1024G）,我们还能用mysql数据库吗？不能，怎么办？” 数仓！“

查询：众所周知mysql在单表处理上亿的数据，可以近实时响应，那么多表关联+上百亿数据呢？ mysql还能高效的查询数据吗？不能，怎么办？ “数仓”

数仓为什么这么神奇？又可以解决存储问题，又可以解决查询问题？

存储问题：数仓数据基于HDFS(分布式文件系统)，分布式？不要被这个名词下到，其实简单的理解就是，hdfs把一个完整的数据集存到多个节点上(多个机器，多个磁盘)。磁盘不够我们可以无限加磁盘，所以数仓的存储上限可以达到PB级别（1P=1024T=1024*1024G），甚至更高。

DEMO：

在这里插入图片描述

查询问题: 数仓基于Map-Reduce（分布式查询），这其实是算法中”问题分解的思想“，把大的问题化成小问题，把每个小问题解决，大问题自然迎刃而解。
mysql的大问题，大数据量+复杂业务查询慢 => 分解小问题 => 把大数据量分解成一个个小数据量，把每个程序处理应用于每个小数据量，再汇总结果.

数仓的定义

数仓，大家广义的理解就是hadoop生态。
hadoop是什么？简单理解 hadoop = hive + hbase + 一系列依赖hive和hbase的套件(presto,phoenix等)

我们常听到的dataworks是什么？ dataworks 就是hadoop，准确的来说dataworks基于hadoop(业界公认且唯一的基本上只有hadoop，所以阿里也没得选)，在hadoop上爆改的一个生态。爆改了名字，阿里才好卖产品。maxcompute = hive , hologress = presto(facebook出产)