大数据框架演进过程
1. Hadoop 的现状
- Hadoop 巅峰已过,逐渐成为遗留系统:Hadoop 在 2010 年代初期是大数据处理的核心,但由于组件复杂、集成困难、运维成本高,以及云计算和对象存储(如 S3)的冲击,Hadoop 的市场份额和行业关注度显著下降。
- 仍有存量部署:全球仍有大量 Hadoop 集群在运行,尤其是在企业内部用于批处理和数据湖场景,但它已不再是新项目的首选。
- 定位转向数据湖:Hadoop 生态(HDFS + Hive + Spark)更多用于存储全量原始数据,作为数据湖基础,而不是核心数仓或实时分析平台。
2. 新一代架构:MPP + 存算分离
- MPP(大规模并行处理)数据库仍是核心:MPP 架构通过 Shared-Nothing 模式实现高性能分析,适合交互式查询、BI 报表和复杂 SQL 分析。代表产品包括 Snowflake、AWS Redshift、StarRocks、ClickHouse 等。
- 云原生 + 存算分离成为主流:
- 计算弹性:计算节点可按需扩缩容,支持“潮汐型”资源调度,降低成本。
- 无限存储:基于对象存储(S3、OSS)构建数据湖,存储成本比传统 SAN 降低 80%+。
- 多租户隔离:支持不同业务共享同一数据湖,但计算资源独立,避免资源争用。
- 趋势:湖仓一体 + 下一代存算分离:
- 传统 Hadoop + MPP 的“湖仓分体”模式存在数据孤岛和高运维成本问题。
- 新一代架构(如 Databricks Lakehouse、Snowflake、华为 OceanStor Pacific)通过统一存储和计算解耦,实现一份数据支持湖仓分析,提升实时性和灵活性。
3. 为什么存算分离是必然趋势?
- 解决资源浪费:传统存算一体架构(Hadoop、早期 MPP)导致 CPU 和存储资源绑定,利用率低。
- 降低成本:弹性扩展计算资源,避免为峰值负载长期付费。
- 简化运维:外置共享存储简化备份和恢复,支持跨云部署。
- 支持湖仓一体和多云协同:下一代架构不仅分离存算,还融合数据湖和数仓,支持实时分析和 AI 场景。
✅ 总结:
- Hadoop 仍在部分企业用于数据湖和批处理,但已不再是新项目的主流选择。
- MPP + 云原生存算分离 是当前和未来的核心趋势,尤其是 湖仓一体化架构,它结合了数据湖的灵活性和数仓的高性能,成为企业数字化转型的关键基础设施。
维度 | Hadoop 数据湖(HDFS+Hive/Spark) | 传统 MPP(存算一体) | 云原生存算分离(Snowflake/BigQuery 等) | 湖仓一体(Databricks/Delta Lake 等) |
---|---|---|---|---|
定位 | 以海量原始数据存储+批处理为主,越来越多作为数据湖基座使用,而非核心交互式数仓 | 面向高性能 SQL/BI 分析的分布式数据库,擅长复杂聚合与多表关联 | 云原生分析平台:对象存储承载数据,计算集群弹性伸缩,支持高并发与多租户隔离 | 统一数据与AI工作负载:在数据湖之上提供数仓级事务与性能,统一批流与机器学习开发体验 |
典型组件/产品 | HDFS、YARN、Hive、Spark 等 | Greenplum、Vertica、Teradata、Impala 等 | Snowflake、Google BigQuery、(也包括 Redshift Serverless 等) | Databricks(Delta Lake)、开源 Lakehouse(Iceberg/Hudi/Delta + 多引擎) |
存储-计算关系 | 逻辑上可分离,但物理上常耦合在同一集群以利用数据本地性 | 耦合(Shared-Nothing):每个节点同时承载存储与计算 | 强分离:对象存储(S3/OSS/Colossus)+ 独立计算集群/虚拟仓库,互相独立扩缩容 | 分离+统一格式/事务层:湖上加事务与元数据层(如 Delta Lake),多引擎共享一份数据 |
弹性与扩展 | 横向扩展好,但异构组件多、扩缩容和升级运维复杂 | 扩容涉及数据重分布,对业务有扰动;并发能力相对有限(几十到百级) | 存储与计算独立弹性;计算可无中断扩缩、多集群并发;存储几乎无限 | 在湖上实现弹性计算+增量/时光回溯,既保留湖的低成本,又具数仓级性能与管理能力 |
性能与并发 | 批处理吞吐高;交互式/实时查询性能与并发不及专用引擎 | 单查询性能强,但并发扩展与资源隔离受限(“全局并行”消耗大) | 高并发/多租户:多集群/虚拟仓库隔离不同负载,交互式性能与稳定性强 | 近实时/统一查询:在湖上提供低延迟查询与批流一体能力,兼容多数据格式/引擎 |
成本模型 | 以廉价存储见长,但三副本、集群常年满配及人力运维成本高 | 软硬件规模扩张下数据重平衡与维护成本高;容量与算力绑死 | 按需计费:存储和计算分摊;计算可关停以降本;对象存储成本远低于本地盘阵 | 复用对象存储+开源表格格式/事务层,一份数据多引擎复用,减少拷贝与孤岛 |
数据一致性/事务 | 早期弱事务,生态组件各异;逐步通过表格格式(Iceberg/Hudi/Delta)提升一致性 | 典型 MPP 提供**强事务(ACID)**与一致性语义(因产品而异) | 云数仓提供服务化事务与隔离(由平台托管) | Delta Lake 提供 ACID 与乐观并发控制、时间旅行、模式约束等数仓级能力 |
易用性与运维 | 组件众多、集成与升级复杂;对专业运维与平台工程能力要求高 | 集群规划/扩容与数据重分布复杂,跨业务资源博弈明显 | 全托管/Serverless(如 BigQuery):免服务器管理,自动优化与伸缩 | 平台化体验:笔记本、特征/模型与数据同平台,治理与安全在同一控制面 |
典型工作负载 | 离线 ETL、日志/原始数据沉淀、海量历史数据留存 | 企业 BI、复杂 SQL OLAP、固定主题数仓 | 交互式分析、即席查询、高并发报表、混合工作负载隔离 | 统一批流、近实时报表/指标、数据科学与机器学习协同 |
代表性新兴/开源方向 | 在湖上采用 Iceberg/Hudi/Delta 以获得表级事务与演进能力 | 新一代开源 MPP(如 StarRocks)聚焦高并发近实时分析与湖仓对接 | 云厂商原生服务(Snowflake/BigQuery/Redshift Serverless 等) | Delta Lake / Iceberg / Hudi 等为统一存储层,向“一湖多引擎”与跨云治理演进 |
当前行业趋势一句话 | 存量为主,新建项目减少,更多承担数据湖底座与批处理角色 | 依旧重要但更聚焦特定分析场景,逐步与湖仓/流处理融合 | 主流:云原生、弹性、低运维、强隔离成为新项目首选 | 目标态:在一份数据上统一湖与仓、实时与离线、数据与AI |