本文主要是讲解如何使用PaddleNLP中的
load_dataset()
方法,包含如何加载内置数据集和自定义数据集。
加载数据集
快速加载内置数据集
目前PaddleNLP内置20余个NLP数据集,涵盖阅读理解,文本分类,序列标注,机器翻译等多项任务。目前提供的数据集可以在 数据集列表 中找到。
以 msra_ner
数据集为例:
from paddlenlp.datasets import load_dataset
# 读取msra_ner数据集的训练集和测试集
train_ds, test_ds = load_dataset("msra_ner", splits=("train", "test"))
load_dataset()
方法会从 paddlenlp.datasets
下找到msra_ner
数据集对应的数据读取脚本(默认路径:paddlenlp/datasets/msra_ner.py),并调用脚本中 DatasetBuilder
类的相关方法生成数据集。
生成数据集可以以 MapDataset
和 IterDataset
两种类型返回,分别是对 paddle.io.Dataset
和 paddle.io.IterableDataset
的扩展,只需在 load_dataset()
时设置 lazy 参数即可获取相应类型。Flase
对应返回 MapDataset
,True
对应返回 IterDataset
,默认值为None
,对应返回 DatasetBuilder
默认的数据集类型,大多数为 MapDataset
。
from paddlenlp.datasets import load_dataset
train_ds = load_dataset("msra_ner", splits="train")
print(type