1 数据仓库概念
数据仓库定义(Data Warehouse),是为企业所有决策制定过程,提供所有系统数据支持的战略集合。
AI:数据仓库是一个大型、集中、主题导向的数据库系统,用于支持企业决策制定、分析和报告的需要。它统一了来自不同数据源的数据,并将其在一个可查询的数据模型中进行了整合和转换,以便于分析和报告。数据仓库还包括数据清洗、抽取、转换和加载(ETL)的过程,以保证数据的准确性、一致性和完整性。数据仓库有助于企业在从历史数据中发现趋势、分析业务绩效和制定策略时更加高效和精确。
数据仓库VS传统数据存储
三大优势:
- 体量大,效率高
- 历史追查,时光回溯
- 数据可用性
原始数据分为以下三个部分:
日志采集系统(Jsonser)
业务系统数据库(MySQL)
爬虫系统等
👇
将这三部分数据源统一存放到数据仓库
👇
报表系统
用户画像
推荐系统
机器学习
风控系统
2.1 项目需求分析
- 采集业务数据库中数据(业务数据库:RDS,导入到DataWorks,进行数据分析)
- 数据仓库的搭建(在Hadoop里面核心的组件HDFS上嵌套使用Hive框架,用Hive框架创建不同分层的表格,作为数据仓库的整体结构)
- 分析统计业务指标(ADS层)
- 对结果进行可视化展示
RDS 业务数据库支持多种数据库引擎,包括 MySQL、PostgreSQL、Oracle 和 SQL
Server,以及各种数据库版本和数据库类型。使用 RDS 业务数据库,您可以轻松地将可扩展性、可用性、安全性和管理负担交还给 AWS,专注于您的应用程序和服务的核心。RDS
业务数据库提供了一个高度可扩展、可靠性高、安全且