load_dataset加载huggingface数据集失败

文章介绍了在遇到加载HuggingFace数据集时可能遇到的网络连接问题,以及如何通过修改代码从本地加载数据。同时,推荐使用GoogleColab来解决连接问题,提供了一种在Colab中运行和下载数据集的方法,包括将Colab文件下载到本地的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 一般的加载方式

from datasets import load_dataset
dataset_dict = load_dataset('cmrc2018')

这种加载方式可能会显示因为连接问题导致失败,此时可以在hugging face里面找到对应的页面下载下来
在这里插入图片描述
然后改一下代码:

from datasets import load_dataset
dataset_dict = load_dataset('cmrc2018.py')

2. 使用google colab下载

加载失败的大多数情况是跟连接相关的,这个问题使用google colab就可以解决。

一个简单粗暴的解决方法是将整个代码上传到google colab中,然后在里面运行加载数据的代码,就可以直接拿到想要的数据了。然后将这个数据下载到本地放入文件夹中就可以用于训练模型了。

google colab支持直接在网页上运行,点击下图中的图标将代码库上穿之后就可以直接执行代码了。
在这里插入图片描述
举个例子:

比如hugging face上的这个项目:https://huggingface.co/moka-ai/m3e-base,其中想要获取相关的数据集并做初步处理的话就要先将代码库:https://github.com/wangyuxinwhy/uniem 下载到本地,并上传至google colab上面,创建输出文件夹之后运行:

!python scripts/process_zh_datasets.py output

即可得到用于训练模型的数据集

3. 如何将google colab上面的文件下载到本地

先将要下载的文件夹压缩成.zip格式的压缩文件

!zip -r folder_name.zip folder_name

其中,folder_name是你要下载的文件夹的名称。运行完这个命令后,压缩文件会保存在当前工作目录下。

然后在Colab左侧的文件导航栏中,找到你刚才压缩的.zip文件,右键点击它并选择“下载”。

或者使用python来下载:

from google.colab import files
files.download('example.txt')

hugging face 官方文档——datasets、optimizer

入门教程 | 使用 Colab,玩转谷歌深度学习全家桶

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

comli_cn

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值