最新离线电商数仓知识笔记沉淀-流程及用户行为采集平台(5)_离线电商项目系统监控和维护用什么-CSDN博客

本文介绍了电商数仓中实现高可用性的关键措施，包括数据复制、监控和自动恢复、灾难恢复。详细阐述了Core和Common节点的角色，以及用户行为日志的埋点方式和内容，如页面浏览、动作、曝光、启动和错误记录。同时，讨论了日志格式、服务器和JDK的准备，以及如何模拟生成用户行为日志。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据复制（Data Replication）：将数据复制到多个节点上，以确保即使某个节点发生故障，数据仍然可以从其他节点获取，确保数据的可用性和一致性。
监控和自动恢复（Monitoring and Automatic Recovery）：实时监控系统的运行状况，当检测到异常时，自动触发相应的恢复机制，尽快恢复服务。
灾难恢复（Disaster Recovery）：建立备份系统或数据中心，以应对灾难性事件，确保即使整个数据中心或系统发生严重故障，业务也能够在短时间内恢复运行。

高可用性模式在数据仓库中尤为重要，因为数据仓库通常承载着企业的重要业务数据和决策支持信息。通过采取高可用性措施，可以最大限度地减少系统停机时间，提高业务连续性和数据安全性。

Core节点：为计算及存储节点，在HDFS中的数据全部存储于core节点中，因为为保证数据安全，扩容Core节点后不允许缩容；主要部署DataNode, NodeManager, RegionServer等进程。非HA>=2, HA>=3。

Common节点：为HA集群Master节点提供数据共享同步已经高可用容错服务；主要部署分布式协调器组件，如ZooKeeper，JournalNode等节点，非HA为0，HA>=3。

消耗内存的分开部署

数据传输数据比较紧密的放在一起（Kafka，ClickHouse）

客户端尽量放到一到两台服务器上，方便外部访问

有依赖关系的尽量放到同一台服务器（如：Ds-worker和Hive/Spark）

2）测试********集群服务器规划