datasets 笔记:加载数据集(基本操作)

参考了huggingface的教程

1  了解数据集基本信息( load_dataset_builder)

  • 在下载数据集之前,通常先快速了解数据集的基本信息会很有帮助。
  • 数据集的信息存储在 DatasetInfo 中,可能包括数据集描述、特征和数据集大小等信息。(不同的数据集提供的信息可能也不相同)
  • 使用 load_dataset_builder() 函数加载数据集生成器,并在不下载数据集的情况下检查数据集的属性
from datasets import load_dataset_builder
ds_builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")

ds_builder.info.description
#''

from datasets import load_dataset_builder
ds_builder = load_dataset_builder("rotten_tomatoes")

ds_builder.info.description
#''
from datasets import load_dataset_builder
ds_builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")

ds_builder.info.features
'''
{'text': Value(dtype='string', id=None),
 'label': ClassLabel(names=['neg', 'pos'], id=None)}
'''

至于这个数据集的名字怎么来的,我的理解是,复制完整路径即可

2 加载数据集

2.1  加载所有

此时Datasets 将返回一个 DatasetDict 对象

from datasets import load_dataset

dataset = load_dataset("rotten_tomatoes")
dataset
''
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值