18、并行关系数据仓库设计:全局综合方法

并行关系数据仓库设计:全局综合方法

1. 引言

如今,随着新基础设施(如云计算)和新设备(如传感器)的兴起,数据量日益增长。社交媒体平台(如Facebook、Twitter和LinkedIn)收集了海量数据,通过分析这些数据来预测用户行为并改进服务变得愈发困难。传统数据仓库(DW)已逐渐过时,而并行关系数据仓库(PRDW)作为一种强大且可扩展的平台,用于在现代分析基础设施中存储、处理和分析大量数据。众多软件公司致力于提供基于大数据的商业智能解决方案,中小企业也在定义与大数据相关的新岗位,展现出明确的商业需求。然而,大数据软件平台的许可证费用、安装和维护成本较高,给中小企业带来了经济压力。

设计PRDW通常包含四个主要步骤:
1. 选择硬件架构 :目前有多种硬件架构可供选择,如无共享(Shared-Nothing)、共享磁盘(Shared-Disk)、大规模并行处理器和工作站集群。无共享架构被认为是支持高性能数据仓库的参考架构,而工作站集群常作为其低成本替代方案。
2. 划分目标数据仓库 :可采用水平或垂直划分方式,水平划分常用于设计PRDW。
3. 将生成的片段分配到可用节点 :分配方式可以是冗余(有复制)或非冗余(无复制)。
4. 定义高效的查询处理策略 :全局查询在处理节点上根据并行计算范式执行,通常通过多重新排序过程进行负载均衡,但这可能导致高通信成本,降低PRDW架构的整体吞吐量。因此,数据复制成为PRDW架构中的必要要求,以避免瓶颈并降低通信成本。

PRDW设计可以建模为一个元组:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值