文章目录
数据仓库理论
学习目标
理解OLTP和OLAP的区别
理解数据仓库的特点
理解数据仓库系统架构
理解指标与维度
理解下钻与上卷
理解事实表与维度表
理解星型模型和雪花模型
理解缓慢渐变维
掌握数据仓库的分层方法
数据仓库介绍
数据分析的问题
- 做分析的时候,很多业务数据都会分散的存储到很多业务后台中。
数据孤岛
- 数据量巨大,需要一种能够存储海量数据,同时也能分析海量数据的工具
- 工具还需要能够支持常用的SQL
解决问题
- 做数据的集中存储
- 分布式存储+分布式计算
满足条件的组件
-
Hive
存储基于分布式的HDFS
计算基于分布式的MapReduce
-
Impala
分布式存储 + 分布式计算
-
HAWQ
-
Spark、Flink(分布式计算框架)搭配HDFS(分布式存储)