【大数据专栏】大数据框架演进过程

#王者杯·14天创作挑战营·第5期#

大数据框架演进过程

1. Hadoop 的现状

  • Hadoop 巅峰已过,逐渐成为遗留系统:Hadoop 在 2010 年代初期是大数据处理的核心,但由于组件复杂、集成困难、运维成本高,以及云计算和对象存储(如 S3)的冲击,Hadoop 的市场份额和行业关注度显著下降。
  • 仍有存量部署:全球仍有大量 Hadoop 集群在运行,尤其是在企业内部用于批处理和数据湖场景,但它已不再是新项目的首选。
  • 定位转向数据湖:Hadoop 生态(HDFS + Hive + Spark)更多用于存储全量原始数据,作为数据湖基础,而不是核心数仓或实时分析平台。

2. 新一代架构:MPP + 存算分离

  • MPP(大规模并行处理)数据库仍是核心:MPP 架构通过 Shared-Nothing 模式实现高性能分析,适合交互式查询、BI 报表和复杂 SQL 分析。代表产品包括 Snowflake、AWS Redshift、StarRocks、ClickHouse 等。
  • 云原生 + 存算分离成为主流
    • 计算弹性:计算节点可按需扩缩容,支持“潮汐型”资源调度,降低成本。
    • 无限存储:基于对象存储(S3、OSS)构建数据湖,存储成本比传统 SAN 降低 80%+。
    • 多租户隔离:支持不同业务共享同一数据湖,但计算资源独立,避免资源争用。
  • 趋势:湖仓一体 + 下一代存算分离
    • 传统 Hadoop + MPP 的“湖仓分体”模式存在数据孤岛和高运维成本问题。
    • 新一代架构(如 Databricks Lakehouse、Snowflake、华为 OceanStor Pacific)通过统一存储和计算解耦,实现一份数据支持湖仓分析,提升实时性和灵活性。

3. 为什么存算分离是必然趋势?

  • 解决资源浪费:传统存算一体架构(Hadoop、早期 MPP)导致 CPU 和存储资源绑定,利用率低。
  • 降低成本:弹性扩展计算资源,避免为峰值负载长期付费。
  • 简化运维:外置共享存储简化备份和恢复,支持跨云部署。
  • 支持湖仓一体和多云协同:下一代架构不仅分离存算,还融合数据湖和数仓,支持实时分析和 AI 场景。

✅ 总结

  • Hadoop 仍在部分企业用于数据湖和批处理,但已不再是新项目的主流选择。
  • MPP + 云原生存算分离 是当前和未来的核心趋势,尤其是 湖仓一体化架构,它结合了数据湖的灵活性和数仓的高性能,成为企业数字化转型的关键基础设施。
维度Hadoop 数据湖(HDFS+Hive/Spark)传统 MPP(存算一体)云原生存算分离(Snowflake/BigQuery 等)湖仓一体(Databricks/Delta Lake 等)
定位海量原始数据存储+批处理为主,越来越多作为数据湖基座使用,而非核心交互式数仓面向高性能 SQL/BI 分析的分布式数据库,擅长复杂聚合与多表关联云原生分析平台:对象存储承载数据,计算集群弹性伸缩,支持高并发与多租户隔离统一数据与AI工作负载:在数据湖之上提供数仓级事务与性能,统一批流与机器学习开发体验
典型组件/产品HDFS、YARN、Hive、Spark 等Greenplum、Vertica、Teradata、Impala 等Snowflake、Google BigQuery、(也包括 Redshift Serverless 等)Databricks(Delta Lake)、开源 Lakehouse(Iceberg/Hudi/Delta + 多引擎)
存储-计算关系逻辑上可分离,但物理上常耦合在同一集群以利用数据本地性耦合(Shared-Nothing):每个节点同时承载存储与计算强分离:对象存储(S3/OSS/Colossus)+ 独立计算集群/虚拟仓库,互相独立扩缩容分离+统一格式/事务层:湖上加事务与元数据层(如 Delta Lake),多引擎共享一份数据
弹性与扩展横向扩展好,但异构组件多、扩缩容和升级运维复杂扩容涉及数据重分布,对业务有扰动;并发能力相对有限(几十到百级)存储与计算独立弹性;计算可无中断扩缩、多集群并发;存储几乎无限在湖上实现弹性计算+增量/时光回溯,既保留湖的低成本,又具数仓级性能与管理能力
性能与并发批处理吞吐高;交互式/实时查询性能与并发不及专用引擎单查询性能强,但并发扩展与资源隔离受限(“全局并行”消耗大)高并发/多租户:多集群/虚拟仓库隔离不同负载,交互式性能与稳定性强近实时/统一查询:在湖上提供低延迟查询与批流一体能力,兼容多数据格式/引擎
成本模型廉价存储见长,但三副本、集群常年满配及人力运维成本高软硬件规模扩张下数据重平衡与维护成本高;容量与算力绑死按需计费:存储和计算分摊;计算可关停以降本;对象存储成本远低于本地盘阵复用对象存储+开源表格格式/事务层,一份数据多引擎复用,减少拷贝与孤岛
数据一致性/事务早期弱事务,生态组件各异;逐步通过表格格式(Iceberg/Hudi/Delta)提升一致性典型 MPP 提供**强事务(ACID)**与一致性语义(因产品而异)云数仓提供服务化事务与隔离(由平台托管)Delta Lake 提供 ACID 与乐观并发控制、时间旅行、模式约束等数仓级能力
易用性与运维组件众多、集成与升级复杂;对专业运维与平台工程能力要求高集群规划/扩容与数据重分布复杂,跨业务资源博弈明显全托管/Serverless(如 BigQuery):免服务器管理,自动优化与伸缩平台化体验:笔记本、特征/模型与数据同平台,治理与安全在同一控制面
典型工作负载离线 ETL、日志/原始数据沉淀、海量历史数据留存企业 BI、复杂 SQL OLAP、固定主题数仓交互式分析、即席查询、高并发报表、混合工作负载隔离统一批流、近实时报表/指标、数据科学与机器学习协同
代表性新兴/开源方向在湖上采用 Iceberg/Hudi/Delta 以获得表级事务与演进能力新一代开源 MPP(如 StarRocks)聚焦高并发近实时分析与湖仓对接云厂商原生服务(Snowflake/BigQuery/Redshift Serverless 等)Delta Lake / Iceberg / Hudi 等为统一存储层,向“一湖多引擎”与跨云治理演进
当前行业趋势一句话存量为主,新建项目减少,更多承担数据湖底座与批处理角色依旧重要但更聚焦特定分析场景,逐步与湖仓/流处理融合主流:云原生、弹性、低运维、强隔离成为新项目首选目标态:在一份数据上统一湖与仓、实时与离线、数据与AI
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值