大数据仓库构建
大数据仓库构建是指通过整合各类数据源,建立一个统一的数据仓库,实现数据的一致性、规范性和共享性。以下是大数据仓库构建的知识点:
1. 数据仓库的重要性:随着数据的急剧增长,传统的数据存储方式已经不能满足业务需求,数据仓库的建立可以解决数据孤岛、数据重复计算和数据共享等问题。
2. 数据仓库的架构设计:数据仓库的架构设计是指通过四层架构(TMP、ADS、MDW、DMD)来实现数据的存储、计算和分析。
3. 数据仓库的建设目标:数据仓库的建设目标是为了实现业务需求,提高数据的价值和使用效率,实现数据的一致性、规范性和共享性。
4. 数据仓库的建设流程:数据仓库的建设流程包括数据同步、数据建模、数据治理、数据产品等几个阶段。
5. 数据仓库的面临问题:数据仓库建设过程中可能会面临一些问题,如DB表全量同步的效率低下、数据孤岛、重复计算等。
6. 数据仓库的解决方案:为了解决上述问题,可以制定规范、约束建表流程、数据同步、大表增量、拉链表设计、维度建模、主题域划分、轻度汇总、沉淀中间结果等。
7. 数据仓库的四层架构:TMP(临时数据层)、ADS(数据存储层)、MDW(元数据层)、DMD(数据产品层)四层架构可以实现数据的存储、计算和分析。
8. 数据仓库的离线数仓整体流程:离线数仓整体流程包括数据同步、数据建模、数据治理、数据产品等几个阶段。
9. 数据仓库的关键要点:数据仓库的关键要点包括数据资产管理、元数据管理、数据生命周期管理、存储、计算性能优化、权限管理等。
10. 数据仓库的落地关键:数据仓库的落地关键包括制定规范、约束建表流程、数据同步、大表增量、拉链表设计、维度建模、主题域划分、轻度汇总、沉淀中间结果等。
11. 数据仓库的应用场景:数据仓库的应用场景包括搜索、推荐、风控、开放、渠道、商业、优品、图书、游戏、商家、推送、用户增长、客服、财务等。
12. 数据仓库的技术栈:数据仓库的技术栈包括Hive、InfluxDB、FastDFS等。
13. 数据仓库的建设步骤:数据仓库的建设步骤包括数据资产管理、元数据管理、数据生命周期管理、存储、计算性能优化、权限管理等。
14. 数据仓库的优点:数据仓库的优点包括解决数据孤岛、提高数据的价值和使用效率、实现数据的一致性、规范性和共享性等。
15. 数据仓库的挑战:数据仓库的挑战包括数据同步、数据建模、数据治理、数据产品等几个方面的挑战。