Google Cloud Dataproc 详解-CSDN博客

本文链接：https://blog.csdn.net/csdn_tom_168/article/details/149403941

Google Cloud Dataproc是 Google Cloud Platform 上提供的完全托管的开源大数据和机器学习服务，核心在于简化和加速 Apache Hadoop、Apache Spark、Apache Flink、Presto 等开源框架集群的创建、管理、扩展和关闭过程。

Dataproc 的核心理念是：让开发者和数据工程师专注于代码逻辑和数据分析，而不是在集群基础设施和管理上耗费精力。

以下是关于 GCP Dataproc 的全面详解：

一、核心概念与定位

完全托管服务：
- Google 负责集群生命周期管理：创建、预配置（安装软件、安全配置、网络设置等）、监控、打补丁、升级组件版本、扩展和关闭。
- 用户只需定义集群参数（如机器类型、节点数量、选择框架/组件）和提交作业。
基于开源： 提供完全兼容上游 Apache 项目的开源组件版本（Hadoop, Spark, Hive, Pig, Presto, Flink, Jupyter Notebook, Zeppelin, HBase, Oozie, Zookeeper等）。保持与开源社区的同步。
超高的灵活性和定制化：
- 集群即代码 / 作业即代码： 所有操作可通过 GCP Console, gcloud CLI, REST API, Client Libraries (Python, Java, Go) 完成，易于集成到 CI/CD 流水线和自动化脚本。
- 自定义镜像： 在基础镜像上安装自定义库、软件或进行特定配置，确保环境一致性。
- 初始化动作： 脚本（Shell, Python等）在集群创建时运行，用于安装额外软件（如 Python 包 pip）、配置系统设置、连接器（如 BigQuery, Cloud Storage Connector）、设置 Metastore 等。
- 作业提交： 提交多种类型的作业（Hadoop, Spark, PySpark, Spark SQL, SparkR, Pig, Hive, Flink, Presto）到现有集群或瞬时集群（--cluster=your-cluster-name 或 --cluster-config）。
按秒计费与瞬时集群：
- 核心优势之一： 集群创建快（通常在 90 秒以内），关闭也快。只按集群生命周期内实际使用的计算资源（核心-秒、内存-秒）按秒计费。
- 瞬时集群模式： 最佳实践！提交作业时，可以指定创建一个新集群来运行该作业，并在作业完成后自动删除该集群。用户只需为作业运行期间存在的集群付费。
深度集成 GCP 生态系统：
- Cloud Storage 为首选存储： 替代 HDFS。提供高性能、低成本、持久的对象存储。作业输入/输出、日志、临时文件都可存于 Cloud Storage。支持通过 gs:// URI 直接访问。
- BigQuery / Bigtable Connectors： 高效读写 BigQuery（大规模数据仓库）和 Bigtable（低延迟 NoSQL）数据。
- Cloud Logging & Monitoring： 开箱即用的日志收集和丰富的指标监控。
- Identity and Access Management (IAM)： 细粒度的权限控制。
- Dataflow： （可选）对于更抽象的流/批处理管道，Dataproc 可与 Dataflow（托管 Apache Beam）互补或逐步迁移。
- AI Platform： Dataproc 处理的数据可轻松供给 AI Platform 的机器学习模型训练和服务。
- Dataproc Metastore： （可选）完全托管的 Hive Metastore 服务，实现跨集群和服务的元数据共享。
开源版本管理： 提供多个版本的组件组合（如 Spark 3.X + Hadoop 3.X），允许用户选择最适合其工作负载的稳定版本组合。
Serverless Spark： Dataproc 的无服务器选项，用户无需关心集群管理或基础设施，直接提交 Spark 作业。自动扩缩容资源。

二、主要集群组件与框架 (运行时安装)

必备核心:
- Apache Hadoop
- Apache Spark
- HDFS (用于暂存/Shuffle，主存储使用 Cloud Storage 而非 HDFS)
- YARN (资源管理)
- ZooKeeper
常用组件:
- Apache Hive (SQL)
- Apache Pig (数据流脚本)
- Apache HBase (可选集成，运行在集群上)
- Presto / Trino (高性能分布式 SQL 查询引擎)
- Apache Flink (流/批处理)
- Apache Kafka (可选集成)
- Jupyter Notebook / Zeppelin Notebook (交互式探索)
- Oozie (工作流调度)
- Cloud Storage Connector (与 gs:// 无缝集成)
- BigQuery Connector (读写 BigQuery)
- Bigtable Hadoop Connector (读写 Bigtable)
用户可选组件: 可以在创建集群时或通过初始化动作安装大量其他库。

三、架构概述与工作流程

集群组成：
- Master Node： 运行 Master 守护进程（如 YARN ResourceManager, HDFS NameNode, HiveServer2, Spark History Server）。
- Worker Nodes： 运行 Worker 守护进程（如 YARN NodeManager, HDFS DataNode, Spark Executors, Flink TaskManagers, Presto Workers）。数量可动态调整。
- 可选：
  - Preemptible Workers： 低成本、可随时被抢占的 VM，显著降低批处理成本。
  - Secondary Workers (HDFS)： 仅用于 HDFS 存储的辅助节点。
  - GPU Nodes： 为机器学习任务配置 GPU。
  - High Availability Mode： 设置多个 Master Node。
存储策略：
- 首要持久化存储：Cloud Storage (gs://)：
  - 存储原始输入数据。
  - 存储最终输出结果。
  - 存储作业日志 (gs://<bucket-name>/dataproc-logs).
  - 存储临时文件/Shuffle 数据（spark.sql.warehouse.dir, fs.defaultFS 通常指向 GS）。
- HDFS (本地临时存储)：
  - 主要用于 Spark/Hadoop 作业运行过程中的 Shuffle 和临时数据。
  - 短暂性： 集群删除时，本地 HDFS 上的数据会丢失！ 必须将需要持久化的结果写入 Cloud Storage。
工作流程：
- 方法1 (瞬时集群)：
  1. 用户定义集群配置（可选自定义镜像/初始化动作）。
  2. 提交作业到 Dataproc（作业指定要运行的 JAR/脚本，及输入/输出路径）。
  3. Dataproc API 自动创建集群。
  4. 集群运行作业。
  5. 作业完成/失败。
  6. Dataproc 自动删除集群（--auto-delete参数）。
  7. 用户付费 = 集群存活时间 + 永久存储在 Cloud Storage 中的数据费用。
- 方法2 (长期运行集群)：
  1. 用户创建并配置一个长期存在的集群（可选自定义镜像/初始化动作）。
  2. 用户通过 SSH/GCP Console Notebook/客户端工具/API 向该集群提交多个作业。
  3. 集群持续运行。
  4. 用户按集群存活时间付费。
  5. 不再需要时手动删除集群。
- 提交作业方式：
  - gcloud dataproc jobs submit
  - GCP Console UI
  - REST API
  - Client Libraries (Python, Java, Go, .NET)
  - Airflow / Cloud Composer (工作流编排)

四、核心优势

极速创建与销毁 (按秒计费)： 核心差异化优势！通常在 90 秒内启动集群，允许瞬时集群模式，大幅优化成本（只付运行时间钱）。
卓越的成本效益：
- 按秒计费： 精确到秒，避免浪费。
- 灵活使用 Preemptible VMs: 最高支持主集群 50% 的 Preemptible Workers，成本显著降低（多达 80%），非常适合容错性高的批处理任务。
- 承诺使用折扣： 对长期运行集群的节点使用预留实例，获得折扣。
- 存储分离： 持久化使用廉价的 Cloud Storage，计算集群可随时销毁。
- 无闲置资源成本： 瞬时集群模式确保作业结束即无计算成本。
高度自动化与运维简化：
- 自动化集群创建、软件安装、配置、补丁、扩展、关闭。
- 内置监控和日志记录集成 Cloud Operations Suite（原 Stackdriver）。
- 简化了版本升级和兼容性问题。
强大的灵活性与定制化：
- 初始化动作： 高度可定制集群启动配置。
- 自定义镜像： 保证环境的稳定性和一致性，加快启动速度。
- 灵活选择组件和版本： 适配不同工作负载需求。
深度无缝的 GCP 集成：
- Cloud Storage 作为核心存储层： 高性能、高可用、低成本，完全替代传统 Hadoop HDFS。
- BigQuery / Bigtable Connectors： 轻松读写 GCP 的强大数据服务。
- VPC、IAM、Cloud KMS： 网络隔离、精细权限、密钥管理。
- Cloud Monitoring & Logging： 一站式运维洞察。
- Dataproc Metastore： 简化元数据管理。
开放与兼容： 基于标准开源框架，避免厂商锁定，可使用现有的 Hadoop/Spark 生态工具和技能。
性能与扩展性： 利用 GCP 强大的 Compute Engine VM，轻松扩展到数百甚至数千节点处理 PB 级数据。
可选无服务器 (Serverless Spark)： 进一步提升易用性，专注于代码而完全忽略基础设施。

五、典型应用场景

ETL / 数据准备： 使用 Spark、Hive、Pig 清洗、转换、丰富来自各种源（日志、数据库、CSV/JSON）的数据到目标格式（如优化后的 Parquet/ORC 文件到 Cloud Storage，或加载到 BigQuery）。
批处理分析： 大规模数据批处理任务（如计算聚合指标、运行复杂模型、日志分析）。
流处理：
- 使用 Spark Streaming / Structured Streaming 进行微批处理。
- 使用 Flink 进行真正的低延迟流处理（与 Pub/Sub, Kafka 等结合）。
机器学习和数据科学：
- 使用 Spark MLlib 进行分布式机器学习训练。
- 使用 PySpark 和 Python ML 库（如 scikit-learn, TensorFlow, PyTorch）处理海量训练数据。可以将模型参数等小量数据输出，大规模训练后的模型文件保存到 GS。
- 使用 Jupyter Notebook on Dataproc 进行交互式探索和原型开发。
分布式查询： 使用 Hive LLAP（交互式）或 Presto/Trino（高性能 Ad-hoc SQL）查询存储在 Cloud Storage 或 Hive Metastore（Dataproc Metastore）中的海量结构化数据。
内容处理/基因分析等专用工作负载： 灵活利用自定义镜像或初始化动作部署特定领域的工具和库。
Hadoop/Spark 工作负载迁移上云： 将本地 Hadoop 集群上的作业以较低迁移成本迁移到 GCP。

六、费用考量

主要成本项：
- 计算引擎费用： 基于 Compute Engine VM 的定价。 按集群中所有 VM (Master, Workers) 的配置（vCPUs, Memory, GPU）和运行时长（精确到秒计费）收费。
- 永久磁盘费用： Master 节点和 Worker 节点挂载的持久化磁盘（用于操作系统、HDFS 暂存等）的费用。大小可选。长期集群主要产生这项费用。
- 网络出口费用： （大部分场景较低）数据传出 Dataproc 集群（如写结果到其他区域/外网的存储）的费用。
- 云存储费用： 存储在 Cloud Storage (gs://) 中的数据的费用（存储费 + 操作费）。这是持久化数据的主要成本，独立于 Dataproc 集群的存在。
- 其他服务费用： 使用的其他 GCP 服务费用，如 Dataproc Metastore、BigQuery、Bigtable、Pub/Sub。
优化策略：
- 尽可能使用瞬时集群： 作业运行完即销毁集群。
- 广泛使用 Preemptible Workers： 对容错性好的批处理任务使用 Preemptible VMs。
- 选择合适的机器类型： 根据工作负载需求选择最佳性价比的机器类型（一般、计算优化、内存优化等）。
- 优化作业： 编写高效的 Spark/Hive/Flink 代码，减少计算资源消耗和时间。
- 利用自动伸缩： 动态调整 Worker 节点数量以适应负载。
- 使用 Committed Use Discounts (CUDs)： 为长期运行集群的节点购买承诺折扣。
- 选择合适的地理区域： 考虑 VM 定价差异和数据本地性。
- 清理临时存储： 作业结束后删除 Cloud Storage 中的临时文件。

七、与 Azure HDInsight / AWS EMR 的主要差异点

启动速度和按秒计费： Dataproc 的核心优势。启动速度快一个数量级（秒级 vs 分钟级），精确按秒计费，对瞬时工作负载成本优化更极致。
存储首选方案： Dataproc 首选且深度优化使用 Cloud Storage (类似于 S3)，而传统 Hadoop/Spark 生态基于 HDFS。虽然 HDInsight/EMR 也支持对象存储，但 Dataproc 的优化整合（如高性能 Cloud Storage Connector）是标杆。HDFS 在 Dataproc 中是临时/次要角色。
灵活性与定制化： Dataproc 的初始化动作和自定义镜像功能提供了非常强大的定制能力，尤其适用于需要特定环境配置的场景。
GCP 生态集成： 深度原生集成 BigQuery、Bigtable，是其独特优势（HDInsight 深度集成 ADLS, Synapse；EMR 深度集成 S3，Redshift, DynamoDB）。Dataproc Metastore 是一个好用的托管服务。
组件组合与无服务器： 提供 Presto/Flink 等更多可选核心组件。其 Serverless Spark 选项提供更高层次的抽象。HDInsight/EMR 也提供类似的无服务器/作业级选项。

总结

GCP Dataproc 是一个高效、灵活且经济高效的托管大数据服务，特别强调速度（集群创建、处理速度）、成本优化（按秒计费、Preemptible VMs、瞬时集群）和强大的定制化能力（初始化动作、自定义镜像）。它与 Cloud Storage 的深度集成和对 BigQuery/Bigtable 等 GCP 核心服务的原生支持，使其成为在 GCP 上运行 Hadoop, Spark, Flink, Presto 等开源框架工作负载的理想平台。

选择 Dataproc 的关键理由在于其卓越的瞬时性和成本控制能力（按秒计费），非常适合批处理、ETL 以及需求波动大的工作负载。同时，它在开放性和灵活性方面也做得非常出色，允许用户利用熟悉的开源工具和技能，并通过自定义满足复杂需求。对于追求极致效率和 GCP 生态深度集成的用户而言，Dataproc 是一个极具竞争力的强大工具。