Kaggle数据集快速上传至Google Colab上,速度可达70MB/S+ !!!

Kaggle提供免费的GPU,但是时间是有限制的,但是Google Colab的GPU是没有时间限制的,所以本文介绍一下如何将Kaggle数据集上传到Google Colab上,如果本地上传,实在是慢,但通过Kaggle数据API式上传,在我笔记本上,上传数据的速度能达到77MB/s;

要实现数据上传,只需要在Colab笔记上依次运行下面的命令即可,亲测有效:

!pip install kaggle
import json
token = {"username":"xxxxx","key":"xxxxx"}
with open('/content/kaggle.json', 'w') as file:
  json.dump(token, file)
上面中token字典中键对应的值是你账号的内容,具体操作如下:

1. 首先进入Kaggle,点击你的头像,点击My Account;

2. 往下拖,点击下面API中Create New API Token,他会自动生成一个json文件;

3. 将你的json文件后面对应的 username 与 key 对应的内容填充到上面的代码块中;

接下来,依次运行下面的代码:

!mkdir -p ~/.kaggle
!cp /content/kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json
!kaggle config set -n path -v /content     # /content可替换成自己云盘里你想存放数据集的地址
 到这里,我们就算完成了一些初始步骤,可以说,上面这些步骤无论在kaggle上下载什么数据集都需要重复的;

接下来,是你想下载什么数据集,就运行什么数据集的API(Kaggle)上;

如何寻找kaggle数据的API? 

1.寻找我们想下载的数据集:

2. 点击New Notebook上面右边的标记;

3. 点击Copy API command ,然后复制到Colab中运行,即可完成数据下载;

结果显示,即使是10G左右的数据,也能下载的非常快; 
————————————————
版权声明:本文为CSDN博主「qq_20880939」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_20880939/article/details/105613800

### 如何快速下载 Kaggle 数据集 为了高效获取 Kaggle 平台上的数据集,可以采用多种工具和方法来实现自动化或加速下载过程。以下是几种常见的最佳实践: #### 使用 Kaggle API 下载数据集 Kaggle 提供了一个官方的 Python 库——`kaggle-api`,它允许用户通过命令行接口轻松访问并下载所需的数据集。安装该库后,可以通过简单的脚本完成操作。 ```bash pip install kaggle ``` 配置 API 密钥文件 `kaggle.json` 后,运行以下命令即可下载指定竞赛或公共数据集的相关资源[^1]。 ```bash kaggle competitions download -c competition-name kaggle datasets download -d username/datasetname ``` 对于较大的数据集,建议结合解压功能一步到位,减少后续处理工作量。 #### 利用第三方工具提高效率 除了官方支持外,还有其他一些开源项目专门针对批量抓取或者镜像备份设计而成。例如 **KaggleDownloader** 脚本能够自动遍历目标页面链接地址列表,并行化多线程传输机制以充分利用带宽资源;而某些云服务平台也提供了内置集成选项方便开发者直接加载远程存储位置的内容到计算环境中去使用[^2]。 #### 编写自定义脚本来管理复杂需求 当面临特殊定制要求时,则可能需要自己动手编写相应逻辑代码来进行更灵活控制。下面给出一个简单例子演示如何利用 requests 和 zipfile 模块组合实现在内存中动态读取压缩包内的 CSV 文件而不需先保存至本地磁盘再打开的过程: ```python import requests from io import BytesIO import zipfile import pandas as pd url = 'https://www.kaggle.com/c/titanic/download/train.csv.zip' response = requests.get(url) with zipfile.ZipFile(BytesIO(response.content)) as z: df = pd.read_csv(z.open('train.csv')) print(df.head()) ``` 以上方式特别适合于那些只关心部分字段值而又不想浪费时间等待整个大文件落地后再做进一步筛选的情况之下应用非常广泛。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值