Google Cloud上机器学习数据集的存储与转换指南
1. 引言
在机器学习项目中,当所需数据准备就绪,真正的工作才刚刚开始。由于现实世界的数据具有多样性,包括大小、类型和性质的差异,因此建立正确的基础设施来存储、传输、转换和分析数据至关重要。本文将介绍将数据迁移到Google Cloud的方法、数据存储系统的选择,以及如何高效地对大规模数据进行转换。
2. 数据迁移到Google Cloud
在Google Cloud Platform(GCP)上启动机器学习项目时,首要任务是将项目相关数据迁移到Google Cloud环境。在数据传输过程中,需要关注可靠性、安全性、可扩展性以及传输过程的管理便捷性。Google Cloud提供了四种主要的数据传输工具,以满足不同用例的需求。
2.1 Google Cloud Storage Transfer工具
适用于数据集规模不大(几TB以内),且希望将数据存储在Google Cloud Storage(GCS)存储桶中的情况。GCS是一种对象类型的存储系统,类似于计算机的本地文件系统。可以通过以下三种方法将文件或文件夹上传到GCS存储桶,并通过Google Cloud控制台的上传进度窗口跟踪上传进度:
- 使用Google Cloud控制台UI :操作简单,上传文件夹时会保留其内部的层次结构。具体步骤如下:
1. 打开浏览器,访问Google Cloud控制台页面。
2. 从左侧面板中点击“Cloud Storage”,打开“Buckets”页面,该页面将列出项目中的所有现有存储桶。
3. 如果相关存储桶已存在