44、GCP 大数据解决方案集成与计算资源应用指南

GCP 大数据解决方案集成与计算资源应用指南

1. Google 提供的管道模板

在 GCP 中,团队常需执行一些常见的数据处理任务,如将 Cloud Pub/Sub 消息传输到 BigQuery,或对 Cloud Storage 中的文件进行批量压缩。管道模板存储在 Cloud Storage 存储桶中,可在不同组织和团队间公开使用。对于这些常见任务,Google 提供了现成的模板(撰写本文时处于测试版)。团队使用这些模板,无需开发管道即可完成常见任务。更多信息可查看: https://cloud.google.com/dataflow/docs/templates/provided-templates

2. 管理 Cloud Dataflow 作业

当管道启动并运行后,管理其执行的选项有限。目前,开发者可取消或排空正在运行的作业:
- 取消作业 :会使执行近乎立即停止,适用于幂等管道(管道摄取过程中状态不会丢失,重新处理元素无副作用)。例如,将 Cloud Storage 中的 CSV 文件迁移到 BigQuery 表并进行截断重载的管道,可在作业中途取消,后续再执行。但对于像使用 PubsubIO 源这种会破坏性消费数据的管道,取消可能导致数据丢失。
- 排空管道 :对于上述可能丢失数据的情况,排空管道是更好的解决方案。排空时,管道停止接受新输入,继续处理正在处理的元素直至完成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值