【限时免费】 PaddleNLP自定义数据集完全指南

尤翔昭Tess

于 2025-08-02 09:12:15 发布

阅读量675

点赞数 28

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/gitblog_00322/article/details/149853792

PaddleNLP自定义数据集完全指南

【免费下载链接】PaddleNLP PaddleNLP是一款基于飞桨深度学习框架的大语言模型(LLM)开发套件，支持在多种硬件上进行高效的大模型训练、无损压缩以及高性能推理。PaddleNLP 具备简单易用和性能极致的特点，致力于助力开发者实现高效的大模型产业级应用。 Easy-to-use and powerful LLM and SLM library with awesome model zoo. 项目地址: https://gitcode.com/paddlepaddle/PaddleNLP

前言

在自然语言处理(NLP)任务中，数据准备是模型训练的第一步，也是至关重要的一环。PaddleNLP提供了灵活的数据集处理工具，让用户可以轻松地处理各种格式的数据。本文将详细介绍如何在PaddleNLP中自定义数据集，涵盖从本地文件、Paddle内置数据集以及其他Python对象创建数据集的方法。

数据集类型概述

PaddleNLP主要提供两种数据集类型：

MapDataset：适用于可以完全加载到内存中的数据集，支持随机访问
IterDataset：适用于大型数据集，只能顺序访问，适合流式处理

从本地文件创建数据集

推荐方法：使用生成器函数

最佳实践是编写一个生成器函数，然后通过load_dataset方法创建数据集：

from paddlenlp.datasets import load_dataset

def read(data_path):
    with open(data_path, 'r', encoding='utf-8') as f:
        next(f)  # 跳过标题行
        for line in f:
            words, labels = line.strip('\n').split('\t')
            words = words.split('\002')
            labels = labels.split('\002')
            yield {'tokens': words, 'labels': labels}

# 创建MapDataset
map_ds = load_dataset(read, data_path='train.txt', lazy=False)
# 创建IterDataset
iter_ds = load_dataset(read, data_path='train.txt', lazy=True)

关键点说明：

生成器函数应该返回字典格式的数据，便于后续处理
lazy参数决定创建哪种类型的数据集
自定义参数(如data_path)可以直接传给load_dataset

注意事项

标签转换：自定义数据集需要自行处理标签到ID的转换
内存考虑：大数据集应使用IterDataset避免内存问题
数据格式：建议统一使用字典格式，方便数据监控和处理

从Paddle内置数据集转换

如果你已经使用PaddlePaddle的Dataset或IterableDataset创建了数据集，可以轻松转换为PaddleNLP的数据集：

from paddle.io import Dataset
from paddlenlp.datasets import MapDataset

class MyDataset(Dataset):
    def __init__(self, path):
        self.data = self.load_data(path)
    
    def load_data(self, path):
        # 实现数据加载逻辑
        return data
    
    def __getitem__(self, idx):
        return self.data[idx]
    
    def __len__(self):
        return len(self.data)

# 转换数据集
paddle_ds = MyDataset(data_path)
nlp_ds = MapDataset(paddle_ds)

优势：转换后可以使用PaddleNLP提供的高级数据处理功能

从其他Python对象创建

从常规Python对象创建

任何实现了__getitem__和__len__方法的对象都可以创建MapDataset：

from paddlenlp.datasets import MapDataset

data_list = [1, 2, 3, 4, 5]
data_tuple = ('a', 'b', 'c', 'd')

list_ds = MapDataset(data_list)
tuple_ds = MapDataset(data_tuple)

实现了__iter__方法的对象可以创建IterDataset：

from paddlenlp.datasets import IterDataset

data_list = ['a', 'b', 'c', 'd']
data_gen = (i for i in range(5))

list_ds = IterDataset(data_list)
gen_ds = IterDataset(data_gen)

注意：生成器创建的数据集只能迭代一次

从第三方库数据集转换

以HuggingFace数据集为例：

from paddlenlp.datasets import MapDataset
from datasets import load_dataset

# 加载不同任务的示例
hf_ner = load_dataset('msra_ner', split='train')
hf_qa = load_dataset('cmrc2018', split='train')
hf_sentiment = load_dataset('glue', 'sst2', split='train')

# 转换为PaddleNLP数据集
ner_ds = MapDataset(hf_ner)
qa_ds = MapDataset(hf_qa)
sentiment_ds = MapDataset(hf_sentiment)

特点：转换后保留原始数据结构，便于后续处理