PaddleNLP加载数据集和自定义数据数据集

最新推荐文章于 2025-06-17 09:13:43 发布

原创

最新推荐文章于 2025-06-17 09:13:43 发布 · 4.8k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #python #paddlepaddle #人工智能 #nlp

文章目录

加载数据集
如何自定义数据集
- 从本地文件创建数据集

本文主要是讲解如何使用PaddleNLP中的 load_dataset()方法，包含如何加载内置数据集和自定义数据集。

加载数据集

快速加载内置数据集

目前PaddleNLP内置20余个NLP数据集，涵盖阅读理解，文本分类，序列标注，机器翻译等多项任务。目前提供的数据集可以在数据集列表中找到。

以 msra_ner 数据集为例:

from paddlenlp.datasets import load_dataset
# 读取msra_ner数据集的训练集和测试集
train_ds, test_ds = load_dataset("msra_ner", splits=("train", "test"))

load_dataset() 方法会从 paddlenlp.datasets 下找到msra_ner数据集对应的数据读取脚本（默认路径：paddlenlp/datasets/msra_ner.py），并调用脚本中 DatasetBuilder 类的相关方法生成数据集。

生成数据集可以以 MapDataset 和 IterDataset 两种类型返回，分别是对 paddle.io.Dataset 和 paddle.io.IterableDataset 的扩展，只需在 load_dataset() 时设置 lazy 参数即可获取相应类型。Flase 对应返回 MapDataset ，True 对应返回 IterDataset，默认值为None，对应返回 DatasetBuilder 默认的数据集类型，大多数为 MapDataset 。

from paddlenlp.datasets import load_dataset
train_ds = load_dataset("msra_ner", splits="train")
print(type

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阳光男孩小宁

关注关注

5
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Paddle：加载自定义数据集

微风❤水墨

01-06

1940

paddle-API文档：https://www.paddlepaddle.org.cn/documentation/docs/zh/api/index_cn.html。对于遇到不清楚的API：直接翻官方文档。如果还不清楚，那就翻对应的pytorch文档。（是不是很眼熟，不能说和Pytorch完全相同，只能说是一模一样。目录下内置了一些经典数据集可直接调用，通过以下代码可查看飞桨框架中的内置数据集。在实际的场景中，一般需要使用自有的数据来定义数据集，这时可以通过。基类来实现自定义数据集。

datasets中load_dataset函数学习

不止学习

09-03

3116

path（str）：数据集的路径或名称。例如，“glue”、“squad”、“‘username/dataset_name’”，HF hub上的一个数据集存储库，其中包含一个数据集脚本“dataset_name.py”。-> 根据目录内容加载一个通用的数据集构建器（csv、json、text等），例如“”/路径/to/directory/带/my/csv/data“”。-> 从数据集脚本中加载数据集构建器，例如，‘./dataset/squad’ 或 ‘./dataset/squad/squad.py’。

参与评论您还未登录，请先登录后发表或查看评论

PaddleNLP十分钟快速上手：基于ERNIE实现中文情感分析实战

gitblog_00114的博客

06-03

415

PaddleNLP十分钟快速上手：基于ERNIE实现中文情感分析实战前言 自然语言处理(NLP)是人工智能领域的重要分支，而情感分析作为NLP的经典任务之一，在舆情监控、产品评价分析等领域有着广泛应用。本文将带领大家使用PaddleNLP框架，基于强大的ERNIE预训练模型，快速构建一个高精度的中文情感分析系统。环境准备首先需要安装PaddleNLP框架，推荐使用pip进行安装： pip i...

MSRA命名实体识别(NER)解析

最新发布

2501_91537388的博客

06-17

636

MSRA命名实体识别(NER)解析

paddlepaddle加载本地数据训练

qq_15821487的博客

06-25

1192

方法一：内置数据格式加载本地文件以字典的方式 if COTE_DP == 1: train_ds, test_ds = load_dataset("cote",'dp', splits=["train", "test"]) if COTE_BD == 1: train_ds = load_dataset("cote",'dp', data_files={"train":"Datasets/COTE_BD/train.tsv"}) test_ds = load_dataset("c

Python 实例｜Paddle｜PaddleNLP.DatasetBuilder 用法整理（含官方文档+源码）

长行

01-23

889

PaddleNLP 的 DatasetBuilder 用法

PaddleX_数据集-datasets

我是天才很好

07-08

1567

PaddleX目前支持主流的CV数据集格式和 EasyData 数据标注平台的标注数据格式，此外PaddleX也提升了数据格式转换工具API，支持包括LabelMe，精灵标注助手和EasyData平台数据格式的转换，可以参考PaddleX的tools API文档。下表为各数据集格式与相应任务的对应关系， 数据集格式图像分类目标检测实例分割语义分割 ImageNet √ VOCDetection √ CocoDetection √ √ SegDataset

paddlenlp.data模块能否加载本地自定义数据集，请代码展示

05-31

PaddleNLP中的`paddlenlp.data`模块提供了多种数据集加载的方式，其中包括加载本地自定义数据集的方法。以下是一个简单的示例，展示了如何使用`paddlenlp.data`模块加载本地自定义数据集。 ```python import ...

paddlenlp.data模块如何加载本地自定义数据集，请代码展示

05-31

打卡零基础PaddleNLP【千言数据集：文本相似度】比赛.zip

09-30

【标题】"打卡零基础PaddleNLP【千言数据集：文本相似度】比赛" 涉及的是一个基于PaddleNLP的文本相似度比赛项目，旨在帮助初学者通过实际操作理解自然语言处理（NLP）中的文本相似度计算。PaddleNLP是百度公司开发...

load_dataset()的用法

BIT_mk的博客

02-25

646

是一个类似于表格的结构，可以包含多列数据，每列都有自己的特定名称和数据类型。并不是所有数据集都有配置参数，只有当数据集包含多个子集时才需要指定。数据集名称是 Hugging Face 数据集库中的唯一标识。一些数据集有多种配置，这些配置通常用于区分不同的子集。表示加载验证集的前 100 条样本。如果不指定，通常会加载数据集的所有分区。表示加载训练集的前 10% 数据，选择数据集的分区（或切片），例如。库中的一个核心函数，用于从。还可以指定数据集的切片，例如。用于指定数据集的名称，例如。获取前 5 个样本。

lr_utils load_dataset 和 datasets

01-07

coursera的吴恩达的课编程练习所需的所需包和数据，可以方便学员自己在本地练习

MSRA数据集NLP

03-27

MSRA数据集NLP，用于NER任务，是命名实体识别最常用的中文数据库之一。有兴趣的话，欢迎下载尝试，一起交流学习。

PaddleNLP信息抽取，uie微调打造自己专属的信息抽取模型

MAI44的博客

08-13

5364

Yaojie Lu等人在ACL-2022中提出了通用信息抽取统一框架UIE。该框架实现了实体抽取、关系抽取、事件抽取、情感分析等任务的统一建模，并使得不同任务间具备良好的迁移和泛化能力。为了方便大家使用UIE的强大能力，PaddleNLP借鉴该论文的方法，基于ERNIE 3.0知识增强预训练模型，训练并开源了首个中文通用信息抽取模型UIE。该模型可以支持不限定行业领域和抽取目标的关键信息抽取，实现零样本快速冷启动，并具备优秀的小样本微调能力，快速适配特定的抽取目标。

【torch】HuggingFace的datasets库中load_dataset方法使用

热门推荐

orangerfun的博客

07-26

5万+

一些情况下加载数据集的逻辑较为复杂，需要自定义加载方式。比如训练ControlNet时，输入有原始图片，边缘图，以及prompt，这时候我们就需要通过在图片所在的目录下写一个python脚本来处理数据加载方式。如下所示，我们数据处理需要是，每条数据包括两张图片，一个文本。step1: 首先我们先创建一个json文件，把图片和文本对应起来，json文件的格式如下所示step2：创建一个python脚本fill50k.py根据json文件中的对应关系加载图片，python脚本如下所示，这个脚本中定义一个。

load_dataset方法使用(HuggingFace的datasets库)

qq_39656852的博客

12-04

6547

一些情况下加载数据集的逻辑较为复杂，需要自定义加载方式。如下所示，我们数据处理需要是，每条数据包括两张图片，一个文本。step1: 首先我们先创建一个json文件，把图片和文本对应起来，json文件的格式如下所示step2：创建一个python脚本fill50k.py根据json文件中的对应关系加载图片，python脚本如下所示，这个脚本中定义一个 Fill50k类，并继承，在类中重写。

load_dataset()的使用

weixin_65350212的博客

10-29

1641

load_dataset()的快速入门

Hugging Face load_dataset 方法使用

大多_C的博客

03-12

680

是 Hugging Facedatasets库中最常用的函数之一，它支持从 Hugging Face Hub 或本地加载各种格式的数据集（如 CSV、JSON、Parquet、SQL、文本等）。以下是。

运行paddlenlp入门示例：训练与演算

迷宫中的我

04-21

4581

0. 环境 win10 + NVIDIA GeForce GTX 1660 Ti 6GB python3.9 cuda 10.2 cudnn 7.6.5 paddlepaddle 2.2.0 1. 安装PaddleNLP python -m pip install --upgrade paddlenlp -i https://pypi.org/simple 2. 运行脚本 2.1 创建文件E:\Workspaces\python\nlp\pynlp_10min.py，添加以下内容 ...