【大数据专栏】大数据框架演进过程

最新推荐文章于 2025-09-08 10:07:54 发布

翰林小院

最新推荐文章于 2025-09-08 10:07:54 发布

阅读量721

点赞数 16

CC 4.0 BY-SA版权

分类专栏：大数据文章标签：大数据

本文链接：https://blog.csdn.net/proc_871113/article/details/151224389

大数据专栏收录该内容

12 篇文章

订阅专栏

#王者杯·14天创作挑战营·第5期#

大数据框架演进过程

1. Hadoop 的现状

Hadoop 巅峰已过，逐渐成为遗留系统：Hadoop 在 2010 年代初期是大数据处理的核心，但由于组件复杂、集成困难、运维成本高，以及云计算和对象存储（如 S3）的冲击，Hadoop 的市场份额和行业关注度显著下降。
仍有存量部署：全球仍有大量 Hadoop 集群在运行，尤其是在企业内部用于批处理和数据湖场景，但它已不再是新项目的首选。
定位转向数据湖：Hadoop 生态（HDFS + Hive + Spark）更多用于存储全量原始数据，作为数据湖基础，而不是核心数仓或实时分析平台。

2. 新一代架构：MPP + 存算分离

MPP（大规模并行处理）数据库仍是核心：MPP 架构通过 Shared-Nothing 模式实现高性能分析，适合交互式查询、BI 报表和复杂 SQL 分析。代表产品包括 Snowflake、AWS Redshift、StarRocks、ClickHouse 等。
云原生 + 存算分离成为主流：
- 计算弹性：计算节点可按需扩缩容，支持“潮汐型”资源调度，降低成本。
- 无限存储：基于对象存储（S3、OSS）构建数据湖，存储成本比传统 SAN 降低 80%+。
- 多租户隔离：支持不同业务共享同一数据湖，但计算资源独立，避免资源争用。
趋势：湖仓一体 + 下一代存算分离：
- 传统 Hadoop + MPP 的“湖仓分体”模式存在数据孤岛和高运维成本问题。
- 新一代架构（如 Databricks Lakehouse、Snowflake、华为 OceanStor Pacific）通过统一存储和计算解耦，实现一份数据支持湖仓分析，提升实时性和灵活性。

3. 为什么存算分离是必然趋势？

解决资源浪费：传统存算一体架构（Hadoop、早期 MPP）导致 CPU 和存储资源绑定，利用率低。
降低成本：弹性扩展计算资源，避免为峰值负载长期付费。
简化运维：外置共享存储简化备份和恢复，支持跨云部署。
支持湖仓一体和多云协同：下一代架构不仅分离存算，还融合数据湖和数仓，支持实时分析和 AI 场景。

✅ 总结：

Hadoop 仍在部分企业用于数据湖和批处理，但已不再是新项目的主流选择。
MPP + 云原生存算分离 是当前和未来的核心趋势，尤其是 湖仓一体化架构，它结合了数据湖的灵活性和数仓的高性能，成为企业数字化转型的关键基础设施。

维度	Hadoop 数据湖（HDFS+Hive/Spark）	传统 MPP（存算一体）	云原生存算分离（Snowflake/BigQuery 等）	湖仓一体（Databricks/Delta Lake 等）
定位	以海量原始数据存储+批处理为主，越来越多作为数据湖基座使用，而非核心交互式数仓	面向高性能 SQL/BI 分析的分布式数据库，擅长复杂聚合与多表关联	云原生分析平台：对象存储承载数据，计算集群弹性伸缩，支持高并发与多租户隔离	统一数据与AI工作负载：在数据湖之上提供数仓级事务与性能，统一批流与机器学习开发体验
典型组件/产品	HDFS、YARN、Hive、Spark 等	Greenplum、Vertica、Teradata、Impala 等	Snowflake、Google BigQuery、（也包括 Redshift Serverless 等）	Databricks（Delta Lake）、开源 Lakehouse（Iceberg/Hudi/Delta + 多引擎）
存储-计算关系	逻辑上可分离，但物理上常耦合在同一集群以利用数据本地性	耦合（Shared-Nothing）：每个节点同时承载存储与计算	强分离：对象存储（S3/OSS/Colossus）+ 独立计算集群/虚拟仓库，互相独立扩缩容	分离+统一格式/事务层：湖上加事务与元数据层（如 Delta Lake），多引擎共享一份数据
弹性与扩展	横向扩展好，但异构组件多、扩缩容和升级运维复杂	扩容涉及数据重分布，对业务有扰动；并发能力相对有限（几十到百级）	存储与计算独立弹性；计算可无中断扩缩、多集群并发；存储几乎无限	在湖上实现弹性计算+增量/时光回溯，既保留湖的低成本，又具数仓级性能与管理能力
性能与并发	批处理吞吐高；交互式/实时查询性能与并发不及专用引擎	单查询性能强，但并发扩展与资源隔离受限（“全局并行”消耗大）	高并发/多租户：多集群/虚拟仓库隔离不同负载，交互式性能与稳定性强	近实时/统一查询：在湖上提供低延迟查询与批流一体能力，兼容多数据格式/引擎
成本模型	以廉价存储见长，但三副本、集群常年满配及人力运维成本高	软硬件规模扩张下数据重平衡与维护成本高；容量与算力绑死	按需计费：存储和计算分摊；计算可关停以降本；对象存储成本远低于本地盘阵	复用对象存储+开源表格格式/事务层，一份数据多引擎复用，减少拷贝与孤岛
数据一致性/事务	早期弱事务，生态组件各异；逐步通过表格格式（Iceberg/Hudi/Delta）提升一致性	典型 MPP 提供强事务（ACID）与一致性语义（因产品而异）	云数仓提供服务化事务与隔离（由平台托管）	Delta Lake 提供 ACID 与乐观并发控制、时间旅行、模式约束等数仓级能力
易用性与运维	组件众多、集成与升级复杂；对专业运维与平台工程能力要求高	集群规划/扩容与数据重分布复杂，跨业务资源博弈明显	全托管/Serverless（如 BigQuery）：免服务器管理，自动优化与伸缩	平台化体验：笔记本、特征/模型与数据同平台，治理与安全在同一控制面
典型工作负载	离线 ETL、日志/原始数据沉淀、海量历史数据留存	企业 BI、复杂 SQL OLAP、固定主题数仓	交互式分析、即席查询、高并发报表、混合工作负载隔离	统一批流、近实时报表/指标、数据科学与机器学习协同
代表性新兴/开源方向	在湖上采用 Iceberg/Hudi/Delta 以获得表级事务与演进能力	新一代开源 MPP（如 StarRocks）聚焦高并发近实时分析与湖仓对接	云厂商原生服务（Snowflake/BigQuery/Redshift Serverless 等）	Delta Lake / Iceberg / Hudi 等为统一存储层，向“一湖多引擎”与跨云治理演进
当前行业趋势一句话	存量为主，新建项目减少，更多承担数据湖底座与批处理角色	依旧重要但更聚焦特定分析场景，逐步与湖仓/流处理融合	主流：云原生、弹性、低运维、强隔离成为新项目首选	目标态：在一份数据上统一湖与仓、实时与离线、数据与AI