最新离线电商数仓知识笔记沉淀-流程及用户行为采集平台(5)

本文介绍了电商数仓中实现高可用性的关键措施,包括数据复制、监控和自动恢复、灾难恢复。详细阐述了Core和Common节点的角色,以及用户行为日志的埋点方式和内容,如页面浏览、动作、曝光、启动和错误记录。同时,讨论了日志格式、服务器和JDK的准备,以及如何模拟生成用户行为日志。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 数据复制(Data Replication):将数据复制到多个节点上,以确保即使某个节点发生故障,数据仍然可以从其他节点获取,确保数据的可用性和一致性。
  2. 监控和自动恢复(Monitoring and Automatic Recovery):实时监控系统的运行状况,当检测到异常时,自动触发相应的恢复机制,尽快恢复服务。
  3. 灾难恢复(Disaster Recovery):建立备份系统或数据中心,以应对灾难性事件,确保即使整个数据中心或系统发生严重故障,业务也能够在短时间内恢复运行。

高可用性模式在数据仓库中尤为重要,因为数据仓库通常承载着企业的重要业务数据和决策支 持信息。通过采取高可用性措施,可以最大限度地减少系统停机时间,提高业务连续性和数据安全性。


Core节点:为计算及存储节点,在HDFS中的数据全部存储于core节点中,因为为保证数据安全,扩容Core节点后不允许缩容;主要部署DataNode, NodeManager, RegionServer等进程。非HA>=2, HA>=3。

Common节点:为HA集群Master节点提供数据共享同步已经高可用容错服务;主要部署分布式协调器组件,如ZooKeeper,JournalNode等节点,非HA为0,HA>=3。

消耗内存的分开部署

数据传输数据比较紧密的放在一起(Kafka,ClickHouse)

客户端尽量放到一到两台服务器上,方便外部访问

有依赖关系的尽量放到同一台服务器(如:Ds-worker和Hive/Spark)

Master Master core core core common common common
nn nn dn dn dn JournalNode JournalNode JournalNode
r********m rm nm nm nm
zk zk zk
hive hive hive hive hive
kafka kafka kafka
spark spark spark spark spark
datax datax datax datax datax
Ds****-master**** Ds-master Ds-worker Ds-worker Ds-worker
maxwell
superset
mysql
flume flume
flink flink
clickhouse
redis
h********base

2)测试********集群服务器规划

服务********名称 子********服务 服务器 hadoop102 服务器 hadoop103 服务器 hadoop104
HDFS NameNode
DataNode
Second
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值