高性能深度分析的大数据平台与IBM企业级Hadoop
立即解锁
发布时间: 2025-08-23 02:15:30 阅读量: 2 订阅数: 5 

# 高性能深度分析的大数据平台与IBM企业级Hadoop
## 一、数据存储优化与Hadoop的应用
在企业的数据管理中,将所有数据都存储在以性能优化为主的基础设施中,在经济上可能不可行。因此,企业可优化分析范围,将不常访问的数据存储在按每TB存储成本优化的基础设施上,在需要时再利用高性能基础设施。
Hadoop的容错分布式存储系统可运行在普通硬件上,能作为这类数据的存储库。与无计算能力的磁带存储系统不同,Hadoop提供了访问和分析数据的机制。由于移动计算比移动数据成本低,Hadoop架构更适合作为大数据的可查询存档。许多企业采用Netezza和Hadoop的“冷热”数据存储架构,将最常用的数据存储在Netezza中,其他数据存档在Hadoop中。此外,除了Hadoop内置的原生连接器,IBM还提供信息集成和治理平台来促进和管理这一过程。
### 无结构化数据分析
关系型数据仓库在存储复杂数据类型和非结构化数据方面能力有限,通过SQL对非结构化数据进行计算也很繁琐且受限。Hadoop能以任何格式存储数据,并使用MapReduce等过程式编程范式进行分析,适合存储、管理和处理非结构化数据。操作步骤如下:
1. 使用Hadoop对非结构化数据进行预处理。
2. 提取关键特征和元数据。
3. 将处理后的数据加载到Netezza数据仓库进行进一步分析。
## 二、Netezza的客户成功案例
### T-Mobile:PB级规模下的极致性能与简单操作
T-Mobile每天处理超过170亿个事件,产生高达2PB的数据。它需要一个大数据解决方案来存储和分析多年的通话详细记录(CDRs),以识别和解决网络瓶颈,确保网络质量和容量。Netezza成为了合适的解决方案,超过1200名用户访问其Netezza系统,每天分析超过170亿个事件,进行网络体验质量(QoE)分析、流量工程、客户流失分析等。部署Netezza后,T-Mobile的数据仓库管理活动显著减少,还能利用更详细的数据减少税收和通话路由费用,并通过解决网络瓶颈问题提高网络可用性。
### 纽约州立大学:利用分析助力多发性硬化症治疗研究
纽约州立大学布法罗分校是世界领先的多发性硬化症(MS)研究中心之一。研究团队希望通过分析MS患者的基因组数据,结合环境因素,探索MS的发病风险因素。研究涉及大量不同类型的数据,计算量巨大。他们选择Netezza作为数据平台,结合Revolution R Enterprise for Netezza和IBM Netezza Analytics系统,快速构建模型并对大量数据进行分析。这一解决方案将分析时间从27小时缩短到11分钟,提高了研究效率和影响力。
### 纽约泛欧证券交易所:降低数据延迟,实现快速临时搜索
纽约泛欧证券交易所每天处理约80亿笔交易,某些特殊日子处理量超过150亿笔,每天需将2TB - 4TB的数据存入数据仓库。传统数据仓库在处理数据时存在数据来回移动、处理时间长等问题。他们选择Netezza后,Netezza将计算靠近数据的核心原则减少了网络流量,将访问关键业务数据的时间从26小时缩短到2分钟,实现了PB级数据的快速临时搜索,开启了新的分析能力。
以下是这些案例的对比表格:
| 客户 | 面临挑战 | 解决方案 | 成果 |
| --- | --- | --- | --- |
| T-Mobile | 处理大量数据,识别网络瓶颈 | Netezza | 减少管理活动,降低费用,提高网络可用性 |
| 纽约州立大学 | 处理大量复杂数据进行研究 | Netezza + Revolution R Enterprise for Netezza + IBM Netezza Analytics系统 | 缩短分析时间,提高研究效率和影响力 |
| 纽约泛欧证券交易所 | 数据处理时间长,需要快速访问数据 | Netezza | 降低数据延迟,实现快速临时搜索 |
## 三、IBM企业级Hadoop:InfoSphere BigInsights
### 传统工具应对大数据的不足
过去几年,Hadoop和NoSQL备受关注。传统数据存储和分析工具在处理大数据时存在诸多问题。从数据量角度看,许多工具在达到几十TB的阈值后就变得不实用,可能无法扩展或传输数据进行处理的时间过长,或者处理成本过高。从数据类型角度看,传统分析工具仅适用于结构化数据,而结构化数据仅占当今世界数据的至多20%。
### BigInsights的目标与企业就绪的三个方面
IBM推出InfoSphere BigInsights(BigInsights)平台,旨在使Hadoop适用于企业环境。其企业就绪主要体现在以下三个方面:
1. **分析支持**:让不同类型的分析师无需将需求传达给Hadoop程序员或购买昂贵的定制应用,就能从存储在BigInsights中的数据中获取价值。
2. **数据集成**:确保Hadoop系统与企业的其他IT基础设施集成,
0
0
复制全文
相关推荐









