Hugging Face下载数据集教程
时间: 2025-07-29 17:06:26 浏览: 15
### 下载 Hugging Face 数据集的教程
在 Hugging Face 上下载数据集可以通过命令行工具 `huggingface-cli` 或使用 `datasets` 库的 `load_dataset` 方法实现。以下是详细的操作步骤:
#### 使用 `huggingface-cli` 命令行工具下载数据集
1. **安装 `huggingface-cli` 工具**
如果尚未安装,可以通过以下命令安装 Hugging Face 提供的命令行工具:
```bash
pip install huggingface-cli
```
2. **登录 Hugging Face 账户**
下载某些受限制的数据集需要认证,可以使用以下命令登录:
```bash
huggingface-cli login
```
登录时需要提供一个有效的 token,可以从 Hugging Face 网站生成并复制粘贴到终端中。
3. **下载数据集**
使用 `huggingface-cli download` 命令下载指定数据集,并设置本地存储路径。例如:
```bash
huggingface-cli download --repo-type dataset --resume-download rohit901/VANE-Bench --local-dir /data1/zjk/VANE-Bench/Dataset
```
- `--repo-type dataset`:指定资源类型为数据集。
- `rohit901/VANE-Bench`:目标数据集名称。
- `--local-dir /data1/zjk/VANE-Bench/Dataset`:指定数据集保存路径。
- `--resume-download`:支持断点续传,确保下载中断后可以继续进行 [^3]。
#### 使用 `datasets` 库的 `load_dataset` 方法下载数据集
1. **安装 `datasets` 库**
如果尚未安装,可以通过以下命令安装:
```bash
pip install datasets
```
2. **加载数据集**
在 Python 脚本中使用 `load_dataset` 加载 Hugging Face 上的数据集,并指定本地缓存路径:
```python
from datasets import load_dataset
dataset = load_dataset("hugging/face/datasetpath", cache_dir="/path/to/local/cache")
```
其中 `"hugging/face/datasetpath"` 是数据集的路径,`cache_dir` 是本地存储路径 [^4]。
3. **查看数据集结构**
可以通过 `print` 查看数据集的组织形式,例如:
```python
print(dataset)
```
输出可能如下:
```
DatasetDict({
'abbreviated': Dataset({ features: ['filename', 'image', 'mol'], num_rows: 10000 }),
'clean': Dataset({ features: ['filename', 'image', 'mol'], num_rows: 10000 }),
'large': Dataset({ features: ['filename', 'image', 'mol'], num_rows: 10000 })
})
```
这种结构表示数据集包含多个子集(如 `abbreviated`、`clean` 和 `large`),每个子集都有特定的字段和数据行 [^4]。
#### 镜像加速下载
对于国内用户,由于网络原因,可以通过设置镜像来加速下载过程。具体操作可以参考使用 Hugging Face 的镜像源,例如将数据集路径替换为镜像地址,或者使用第三方镜像服务。
---
###
阅读全文
相关推荐



















