参考了huggingface的教程
1 了解数据集基本信息( load_dataset_builder)
- 在下载数据集之前,通常先快速了解数据集的基本信息会很有帮助。
- 数据集的信息存储在 DatasetInfo 中,可能包括数据集描述、特征和数据集大小等信息。(不同的数据集提供的信息可能也不相同)
- 使用 load_dataset_builder() 函数加载数据集生成器,并在不下载数据集的情况下检查数据集的属性
from datasets import load_dataset_builder
ds_builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")
ds_builder.info.description
#''
from datasets import load_dataset_builder
ds_builder = load_dataset_builder("rotten_tomatoes")
ds_builder.info.description
#''
from datasets import load_dataset_builder
ds_builder = load_dataset_builder("cornell-movie-review-data/rotten_tomatoes")
ds_builder.info.features
'''
{'text': Value(dtype='string', id=None),
'label': ClassLabel(names=['neg', 'pos'], id=None)}
'''
至于这个数据集的名字怎么来的,我的理解是,复制完整路径即可
2 加载数据集
2.1 加载所有
此时Datasets 将返回一个 DatasetDict 对象
from datasets import load_dataset
dataset = load_dataset("rotten_tomatoes")
dataset
''